登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP网盘
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
读数据质量管理:数据可靠性与数据质量问题解决之道20读 ...
读数据质量管理:数据可靠性与数据质量问题解决之道20读后总结与感想兼导读
[ 复制链接 ]
岑韬哎
2025-6-10 23:45:35
1. 基本信息
数据质量管理:数据可靠性与数据质量问题解决之道
[美] 巴尔·摩西,[美] 利奥·加维什,[美] 莫莉· 著
机械工业出版社,2024年5月出版
1.1. 读薄率
书籍总字数18.8万字,笔记总字数61295字。
读薄率61295÷188000≈32.6%
1.2. 读厚方向
Data Mesh权威指南
数据的边界:隐私与个人数据保护
数据保护:工作负载的可恢复性
Julia数据科学应用
MLOps权威指南
数据自助服务实践指南:数据开放与洞察提效
商战数据挖掘:你需要了解的数据科学与分析思维
Spark快速大数据分析(第2版)
1.3. 笔记--章节对应关系
笔记章节字数发布日期
2024年读数据质量管理:数据可靠性与数据质量问题解决之道01数据质量第1章 为什么数据质量值得关注311711月12日读数据质量管理:数据可靠性与数据质量问题解决之道02数据湖仓第2章 对可靠数据系统的构建模块进行组装334511月13日读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录第2章 对可靠数据系统的构建模块进行组装273411月14日读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗第3章 收集、清洗、转换和测试数据328611月15日读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化第3章 收集、清洗、转换和测试数据346211月16日读数据质量管理:数据可靠性与数据质量问题解决之道06数据测试第3章 收集、清洗、转换和测试数据380211月17日读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测第4章 数据管道的监控和异常检测220911月18日读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测第4章 数据管道的监控和异常检测373811月19日读数据质量管理:数据可靠性与数据质量问题解决之道09数据可靠性第5章 为数据可靠性进行架构设计327211月20日读数据质量管理:数据可靠性与数据质量问题解决之道10数据平台第5章 为数据可靠性进行架构设计363211月21日读数据质量管理:数据可靠性与数据质量问题解决之道11根因分析第6章 解决大规模数据质量问题331911月22日读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解第6章 解决大规模数据质量问题266911月23日读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭第7章 构建端到端的数据沿袭347611月24日读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量第8章 推广和普及数据质量319311月25日读数据质量管理:数据可靠性与数据质量问题解决之道15数据信任第8章 推广和普及数据质量289011月26日读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证第8章 推广和普及数据质量429611月27日读数据质量管理:数据可靠性与数据质量问题解决之道17数据网格第9章 现实世界中的数据质量:对话和案例分析334611月28日读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现第9章 现实世界中的数据质量:对话和案例分析282111月29日读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来第10章 开创可靠数据系统的未来268811月30日$总计61295$
2.
亮点
2.1 数据标准化很重要
标准化通常是你的数据在管道中经过的诸多此类转换中的第一个
非常重要
2.2 数据测试
数据测试的两个最佳工具分别是dbt测试和Great Expectation
2.3 数据沿袭
通俗点说,就是来龙去脉
2.4 数据信任
重中之重,不可信,有何用?
其实,也是很有用的。。。。。
比如,米国的那些非农啊、就业啊等等数据操控之用(冠冕堂皇地说法,预期管理)
3.
感想
3.1 总结要及时
总结一定要及时啊,因为时间长了,容易忘
但是,换一个说法,就是没有忘的,就是沉淀下来的精华啊
3.2 数据工程越来越重要
随着时代的发展,AI是数据需求的重头戏,而数据工程是保障数据质量的关键环境,“垃圾进,垃圾出“,数据工程势必占据越来越重要的地位
3.3 数据质量保障是一个长期、持续的过程
只要有数据产生,就要保障数据质量,不会一劳永逸,只会持续不断跟进
3.4 数据信任和操控
前文提到了数据操控,其实还是基于数据信任的
为什么要数据操控?是因为数据不符合预期。
为什么会认为数据不符合预期?是因为相信数据得到的结果,还是要信任啊。
也许你会说,样本取样的问题?为什么样本取样有问题?为什么不全面取样?是不能还是不敢,亦或是不为
修正前期的数据又为啥?
3.5 好书,推荐阅读
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
岑韬哎
2025-6-10 23:45:35
关注
0
粉丝关注
23
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
黎瑞芝
9990
杭环
9988
4
猷咎
9988
5
凶契帽
9988
6
接快背
9988
7
氛疵
9988
8
恐肩
9986
9
虽裘侪
9986
10
里豳朝
9986
查看更多