- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
腾讯大讲堂59-数据蕴含商机,挖掘决胜千里
数据蕴含商机,挖掘决胜千里 Agenda 从运筹帷幄到决胜千里… 观日月之行,察天地之变 数据爆炸的时代 数据挖掘是…… 多学科的融合 Agenda 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 数据挖掘是一个过程 数据挖掘方法论 CRISP_DM (Cross Industry Standard Process for DM) 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出 SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, Assess 在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论 工欲善其事必先利其器 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 先来玩玩数据(EDA) 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 数据挖掘 = 模型 + 算法 你使用过信用卡吗? 分类过程 物以类聚,人以群分 聚类示意 基于欧氏距离的三维空间中的聚类 基于质心的聚类算法 (K-Means) 发现商品间的关联规则 关联规则的量度 支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率 期望可信度:Support(A)=#A/#N,表示A出现的概率 置信度:Confidence(A=B)=Support(A=B)/Support(B) 改善度:Lift(A=B)=Confidence(A=B)/Support(B) 关联规则的度量 发现具有最小置信度和支持度的全部规则 X ^ Y ? Z 支持度(support), s, 事务中包含{X Y Z}的概率 置信度(confidence), c, 事务中包含{X Y}的条件下, 包含Z的条件概率 从算法到应用 数据挖掘厂商 Agenda 看看QQ的流失数据 一切从目标出发 打开观测用户的窗口 训练样本 \ 测试样本 观察窗口: 2007年1月—2007年3月 表现窗口: 2007年5月—2007年6月 Time Lag: 2007年4月 交叉校验样本 观察窗口: 2007年2月—2007年4月 表现窗口: 2007年6月—2007年7月 Time Lag: 2007年5月 勾勒出用户行为的特征 黄沙吹尽始到金 基础变量和中间变量数目约为224个 经过变量变换后的变量数目约为1700个 Lift曲线 ROC曲线 建立闭环的业务流程 Agenda 几点心得 参考文献 网络资源 联系我们 1 2,267,293 Total 0.05 226,730 9 0.07 226,729 8 0.11 226,729 7 0.15 226,730 6 0.25 226,729 5 0.35 226,729 4 0.55 226,730 3 1.03 226,728 2 2.27 226,729 1 5.17 226,729 0 Lift 样本数量 十分位 50% 75% 流失客户分析 数据挖掘 数据分析 数据采集/ETL
您可能关注的文档
- 沈阳文史资料17.pdf
- 沈阳文史资料18-纪念“九·一八”六十周年史料专辑_0.pdf
- 沈阳文史资料12 张作霖史料专辑.pdf
- 沈阳长城h5改装摩雷欧迪臣音响.pdf
- 沈阳重装故障案例第一版.pdf
- 沈阳县区(1986-1993).pdf
- 生命领会和精神自觉_中西马哲学会通的辩证本体基础.pdf
- 十大seo优化技巧三大禁忌6个细节电子书.pdf
- 诗经的文化精神.pdf
- 试论张爱玲_苏青的精神特征.pdf
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)