登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP网盘
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
读商战数据挖掘:你需要了解的数据科学与分析思维12总结 ...
读商战数据挖掘:你需要了解的数据科学与分析思维12总结
[ 复制链接 ]
琉艺戕
4 小时前
1. 总结
1.1. 不能简明地解释一件事,说明你对它理解得不够
1.1.1. 爱因斯坦
1.2. 对数据科学实践最好的描述是分析工程和探索的结合
1.3. 商业中会存在我们需要解决的问题,而该问题很少能直接与基础的数据挖掘任务相对应
1.4. 缺少分析工程的结果是,数据挖掘的结论很可能无法用于解决商业问题
1.5. 如果没有将整个过程视作一个探索发现过程,常常会导致企业无法恰当地部署管理、激励和投资,进而导致整个项目失败
1.6. 高效的数据分析思维有助于系统地评估潜在的数据挖掘项目
2. 基本概念
2.1. 理解和接受数据科学的基本概念,会使分析工程和探索发现更加系统化,更有可能取得成功
2.2. 关于如何将数据科学应用于企业和竞争格局的一般概念,包括如何吸引、构建和培养数据科学团队,如何利用数据科学带来竞争优势,如何保持竞争优势,以及做好数据科学项目的战术原则
2.3. 数据分析式思维的一般方法有助于我们收集合适的数据、构想合适的方法
2.4. 概念包含数据挖掘流程、各种高层次的数据科学任务的集合,以及如下所述的原则
2.4.1. 在整个数据挖掘流程中,数据科学团队都应谨记亟待解决的问题和使用场景
2.4.2. 数据应被视作资产,因此我们应谨慎考虑对其进行投资,以充分利用该资产
2.4.3. 期望值框架有助于构造商业问题
2.4.3.1. 可以让我们看到商业问题中包含的数据挖掘问题,以及商业环境带来的成本、收益和约束
2.4.4. 泛化能力和过拟合:如果过度仔细地观察数据,那么总能发现其中的模式
2.4.4.1. 希望这些模式也能推广到新数据中
2.4.5. 把数据科学应用到结构良好的问题中或探索性数据挖掘中时,需要在数据挖掘流程的不同环节付出不同的努力
2.5. 从数据中实际获取知识的一般概念
2.5.1. 识别富信息属性,即与我们关注的未知量相关或能提供其相关信息的属性
2.5.2. 用数值函数模型拟合数据:选定目标(函数),并根据它选定一系列参数
2.5.3. 对模型复杂度进行必要的控制,在泛化能力和过拟合之间找到平衡点
2.5.4. 计算数据所描述的对象之间的相似度
2.5.5. 提升度被用来度量在多大程度上特定模式比随机情况更有可能出现
3. 挖掘移动设备数据
3.1. 用定位数据将可能属于同一个用户的其他设备筛选出来
3.2. 如果我们能刻画出某个移动设备的位置访问行为,就可以排除大部分可能的备选项
3.3. 在数据理解环节,我们需要决定如何确切地表示用户的设备及其定位
4. 改变对商业问题解决方案的思考方式
4.1. 在数据挖掘流程中的业务理解/数据理解环节中,“问题是什么”的概念变成了“我们到底能对数据做什么”
4.2. 事实证明,在进行精准广告或促销时,这样的改变能被所有利益相关者接受
5. 数据做不到的
5.1. 有些事情是计算机擅长的,有些则是人类擅长的,而这两者往往不尽相同
5.1.1. 人类更擅长从全世界的所有东西中区分出一些相关联的方面,并从中收集数据来支持特定任务
5.1.2. 计算机则更擅长从包括大量(可能)相关变量的浩如烟海的数据中筛选重要信息,以及通过量化变量相关性来预测目标
5.2. 数据科学是人类智慧和计算机技术的明智组合,能做到两者中任何一方不能单独做到的事情
5.2.1. 该过程所引入的结构强调人类之间的早期交互,从而确保了数据科学方法围绕着正确的问题应用
5.2.2. 检查数据挖掘流程也能说明,人际互动不仅在任务选择和问题定义环节起关键作用
5.2.3. 人类的创造力、知识和常识发挥作用的一个环节是选择正确的数据进行挖掘,而这一环节(特别是考虑它的重要性时)在数据挖掘的讨论中经常被忽略
5.2.4. 人际互动也是评估环节的关键
5.2.4.1. 只有人类能分辨对于特定问题而言,什么是最优化的最佳客观标准
5.2.4.2. 涉及大量人类的主观判断,因为通常真正的最优化标准是无法度量的
5.2.4.3. 人类必须尽可能找出最好的替代标准,并且牢记这些决定,因为它们可能是模型部署时的风险来源
5.2.4.4. 需要仔细地、有时有创造力地关注最终生成的模型或模式是否真的能解决问题
5.3. 数据包含了设计数据采集系统的人的信念、目的、偏见和语言用法
5.3.1. 数据的含义则会受到我们自身信念的影响
5.4. 当发现数据采集过程中的偏差时,我们通常会改变对数据采样的理解
5.5. 我们需要能够识别可以因数据科学甚至是人类的参与而增值的问题
6. 隐私、道德和挖掘个人数据
6.1. 挖掘数据,尤其是个人数据,会引发不容忽视的道德问题
6.2. 隐私和改善商业决策之间的关系非常密切,因为愈发频繁的个人数据使用和愈加高效的商业决策之间似乎存在直接关系
6.2.1. 收集到的个人数据越详细,相关商业决策的质量就会越高
6.2.2. 越来越少的隐私和越来越高的企业业绩之间看似有直接的关系,这从隐私和业务两个视角(有时来自同一人)同时引发了强烈的情绪
6.3. 隐私是一个混乱的概念,我们无法明确其含义
7. 从众包到云包
7.1. 互联网带来的企业和“消费者”的互通,改变了劳工经济
7.2. “云劳动”的众包业务—通过互联网来控制大量独立承包商
7.3. 一种与数据科学紧密相关的云劳动是“微外包”:将大量小而定义明确的任务外包
7.4. 微外包与数据科学紧密相关,因为它改变了数据投资的经济条件和可行性
7.5. 可以通过互联网雇用廉价劳动力,以多种方法获取数据
7.6. 一分钱一分货,低价有时代表低质量
7.7. 用云劳动查找仇恨言论的正样本个体
7.8. 云劳动也可以用于在游戏式的系统中找到当前模型出错的地方,即“打败机器”
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
琉艺戕
4 小时前
关注
0
粉丝关注
12
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9986
背竽
9992
猷咎
9990
4
凶契帽
9990
5
里豳朝
9990
6
处匈跑
9990
7
黎瑞芝
9990
8
恐肩
9988
9
终秀敏
9988
10
杭环
9988
查看更多