本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。
整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。
非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。
查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)
step1:打开工具
直接打开即可:https://tooli.fun/duckdb_shell
step2:导入数据,并确认数据结构
输入命令并回车: .files add
在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。
查看导入结果: .files list
查看文件头3行:- select * from 'tmp_dim_company_simple.csv' limit 3;
复制代码
step3:生成SQL,查询数据
随意组装下提示词:- 你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。
- ## 以下是各个数据集的结构说明
- ### 数据集1:
- 文件名称:tmp_dim_company_simple.csv
- 前3行数据:
- duckdb> select * from tmp_dim_company_simple.csv limit 3;
- ┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
- │ column0 ┆ column1 ┆ column2 ┆ column3 ┆ column4 ┆ column5 │
- ╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
- │ 000001.SZ ┆ SZSE ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东 ┆ 深圳市 │
- │ 000002.SZ ┆ SZSE ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东 ┆ 深圳市 │
- │ 000003.SZ ┆ SZSE ┆ 40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东 ┆ 深圳市 │
- └───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
- 上级的需求:查询各个省份的上市公司数量
复制代码
生成的SQL:- SELECT
- column4 AS province,
- COUNT(*) AS company_count
- FROM 'tmp_dim_company_simple.csv'
- GROUP BY column4
- ORDER BY company_count DESC;
复制代码 执行SQL:
但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;
step4:优化SQL并导出数据
得到调整后的SQL:- COPY (
- SELECT
- column4 AS province,
- COUNT(*) AS company_count
- FROM 'tmp_dim_company_simple.csv'
- GROUP BY column4
- ORDER BY company_count DESC
- ) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');
复制代码 执行SQL,查看导出结果并下载文件。
step5:整理并绘制数据图表
打开工具:中国地图数据投影
下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:- 广东,844
- 浙江,664
- 江苏,630
- 北京,460
- 上海,430
- 山东,283
- 四川,176
- 福建,175
- 安徽,160
- 湖北,143
- 湖南,142
- 河南,104
- 辽宁,99
- 陕西,76
- 河北,73
- 江西,70
- 天津,70
- 重庆,65
- 新疆,64
- 吉林,55
- 黑龙江,47
- 云南,43
- 山西,40
- 广西,40
- 甘肃,38
- 海南,36
- 贵州,34
- 内蒙古,29
- 西藏,22
- 宁夏,15
- 青海,12
- None,5
- 香港,2
复制代码 选择company_count_by_province.csv文件,并点击渲染按钮。
查看数据图表,同时可选择是否展示标签。可以复制链接进行分享。
结果链接,可点击查看
[更多精彩内容]
在超大数据集下, DuckDB 与 MySQL 查询速度对比
已落地实操,使用 Doris 4.0 的AI函数进行游戏玩家聊天数据挖掘和探索
字节跳动如何利用 Doris 4.0 解决十亿级向量搜索难题
百行代码带你快速构建Text2SQL工具
31 款开源BI可视化工具,你用过几款?
使用Doris「部分列更新机制」实现大宽表的近实时拼接
ChatBI和智能数据分析的现状与我在这方面的实践
已在实际项目落地,用Doris+Kafka+Metabase搭建实时BI报表的极简架构数仓
使用位运算方式计算用户留存数据
基于Dify构建智能数据分析应用
使用卡方检验工具比较两组样本成功率差异
AB测试样本量计算
数学模型可视化,3D函数图像绘图工具
喜欢可关注小编:
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |