找回密码
 立即注册
首页 业界区 业界 没有技术要求,只需5步就能完成数据分析和图表制作,Duc ...

没有技术要求,只需5步就能完成数据分析和图表制作,DuckDB可将数据分析门槛铲平。

灼巾 昨天 22:50
本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。
整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。
非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。
查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)
 step1:打开工具
直接打开即可:https://tooli.fun/duckdb_shell
1.png

 
step2:导入数据,并确认数据结构
输入命令并回车: .files add
在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。
查看导入结果: .files list
查看文件头3行:
  1. select * from 'tmp_dim_company_simple.csv' limit 3;
复制代码
2.png

 
step3:生成SQL,查询数据
随意组装下提示词:
  1. 你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。
  2.     ## 以下是各个数据集的结构说明
  3.     ### 数据集1:
  4.     文件名称:tmp_dim_company_simple.csv
  5.     前3行数据:
  6. duckdb> select * from tmp_dim_company_simple.csv limit 3;
  7. ┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
  8. │ column0   ┆ column1 ┆ column2   ┆ column3             ┆ column4 ┆ column5 │
  9. ╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
  10. │ 000001.SZ ┆ SZSE    ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东      ┆ 深圳市     │
  11. │ 000002.SZ ┆ SZSE    ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东      ┆ 深圳市     │
  12. │ 000003.SZ ┆ SZSE    ┆   40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东      ┆ 深圳市     │
  13. └───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
  14.     上级的需求:查询各个省份的上市公司数量
复制代码
3.png

生成的SQL:
  1. SELECT
  2.     column4 AS province,
  3.     COUNT(*) AS company_count
  4. FROM 'tmp_dim_company_simple.csv'
  5. GROUP BY column4
  6. ORDER BY company_count DESC;
复制代码
执行SQL:
4.png

但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;
step4:优化SQL并导出数据
5.png

得到调整后的SQL:
  1. COPY (
  2.   SELECT
  3.       column4 AS province,
  4.       COUNT(*) AS company_count
  5.   FROM 'tmp_dim_company_simple.csv'
  6.   GROUP BY column4
  7.   ORDER BY company_count DESC
  8. ) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');
复制代码
执行SQL,查看导出结果并下载文件。
6.png

 
step5:整理并绘制数据图表
打开工具:中国地图数据投影
7.png

下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:
  1. 广东,844
  2. 浙江,664
  3. 江苏,630
  4. 北京,460
  5. 上海,430
  6. 山东,283
  7. 四川,176
  8. 福建,175
  9. 安徽,160
  10. 湖北,143
  11. 湖南,142
  12. 河南,104
  13. 辽宁,99
  14. 陕西,76
  15. 河北,73
  16. 江西,70
  17. 天津,70
  18. 重庆,65
  19. 新疆,64
  20. 吉林,55
  21. 黑龙江,47
  22. 云南,43
  23. 山西,40
  24. 广西,40
  25. 甘肃,38
  26. 海南,36
  27. 贵州,34
  28. 内蒙古,29
  29. 西藏,22
  30. 宁夏,15
  31. 青海,12
  32. None,5
  33. 香港,2
复制代码
选择company_count_by_province.csv文件,并点击渲染按钮。
查看数据图表,同时可选择是否展示标签。可以复制链接进行分享。
8.png

 
结果链接,可点击查看
 
[更多精彩内容]
在超大数据集下, DuckDB 与 MySQL 查询速度对比
已落地实操,使用 Doris 4.0 的AI函数进行游戏玩家聊天数据挖掘和探索
字节跳动如何利用 Doris 4.0 解决十亿级向量搜索难题
百行代码带你快速构建Text2SQL工具
31 款开源BI可视化工具,你用过几款?
使用Doris「部分列更新机制」实现大宽表的近实时拼接
ChatBI和智能数据分析的现状与我在这方面的实践
已在实际项目落地,用Doris+Kafka+Metabase搭建实时BI报表的极简架构数仓
使用位运算方式计算用户留存数据
基于Dify构建智能数据分析应用
使用卡方检验工具比较两组样本成功率差异
AB测试样本量计算
数学模型可视化,3D函数图像绘图工具
 
喜欢可关注小编:
9.jpeg

 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册