第三章信息处理技术与方法(下)辩析.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * 产品销售 情况 2006.1产品销售情况 选定两个维:产品维和地区维 时间维 数据切片 产品维 地区维 产品维 地区维 切 块 选定多维数的一个三维子集的方法称切块。即选定多维数组(维1,维2,……,维n,变量)中的三个维:维I、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I、维j和维r上一个三维子集,我们称这个三维子集为多维数组在维I、维j和r上的一个切块,表示为:(维I,维j,维r,变量)。切块与切片的作用与目的是相似的。 美国 中国 手机 电脑 图8-3 三维立方体切块(Slice) 旋 转 旋转即是改变一个报告或面显示的维方向。例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面的维进行交换(令其成为新一行或列中的一个)把一个横向为时间、纵向为产品的报表旋转成为横向为产品、维向为时间的报表。 2005年 2006年 部门 1季度 2季度 3季度 4季度 1季 度 2季 度 3季 度 4季 度 部门一 20 12 18 27 22 16 19 29 部门二 23 11 24 17 22 31 12 34 部门三 26 21 34 33 21 23 26 32 1季度 2季度 3季度 4季度 部门 2005 年 2006 年 2005 年 2006 年 2005 年 2006 年 2005 年 2006 年 部门一 20 22 12 16 18 19 27 29 部门二 23 22 11 31 24 12 17 34 部门三 26 21 21 23 34 26 33 32 旋转前的有关数据描述 旋转后的有关数据描述 钻取 按时间维向下钻取 按时间维向上钻取 60 4. 数据挖掘 数据的爆炸性增长: 从TB到PB 数据收集和数据可用性 自动的数据收集工具, 数据库系统, Web, 计算化的社会 2003年,法国电信的呼叫数据为30TB,ATT以26TB的数据量位居第二,如此多的呼叫数据以致于ATT无法全部保存,对数据的分析也只能是“粗略”的 Google,40亿以上的页面(2004年4月统计),数据量为nTB 据加州大学伯克利分校的研究人员统计,2002年新产生数据为1999年的2倍,而且数据的膨胀在不断加速 我们正淹没在数据洪水中, 但却渴望知识! 数据挖掘 (从数据中发现知识) 从海量数据中提取感兴趣(重要的, 隐含的, 以前未知的 和 潜在有用的)模式或知识 数据挖掘: 用词不当? 其他的名称 数据库中的知识发现 (挖掘) (KDD), 知识提取, 数据/模式分析, 数据考古学, 数据捕捞, 信息收获, 商业智能等. 当心: 所有的都是“数据挖掘”么? 简单的有哪些信誉好的足球投注网站和查询处理 (演绎的) 专家系统 4. 数据挖掘 为什么要数据挖掘?—潜在的应用 数据分析和决策支持 市场分析和管理 目标市场定位, 客户关系管理 (CRM), 购物篮分析, 交叉销售 风险分析和管理 预测, 客户保持, 质量控制, 竞争分析 欺诈检测和不寻常模式的检测 (离群点) 其他的应用 文本挖掘 (新闻组, email, 文档) 和Web挖掘 流数据挖掘 生物信息学和生物数据分析 现实世界中的数据挖掘可以用来干什么? —— 有哪些信誉好的足球投注网站制造爆炸的恐怖分子 美国联邦调查局(FBI)对地区调查员提交的大量报告进行审查,寻找和爆炸事件的联系。. 使用链路分析,聚类和规则归纳等分析方法来识别可能的线索。 数据挖掘的其他应用 知识发现 (KDD) 过程 数据挖掘—知识发现过程的核心 数据清理 数据集成 数据库 数据仓库 任务相关的数据 选择 数据挖掘 模式评估 5. DM与OLAP的区别 用户可能会提出这样一个典型的OLAP问题:去年哪里的用户的购买了更多的轿车,是上海还是北京(请注意,在这个问题中已经隐含了用户的一些前提条件)?面对这样的问题,OLAP可能会回答:在去年,上海地区的用户购买了12 000辆轿车,而北京的用户购买了10 000辆。相比之下,一个典型的DM问题可能会是:给出一个模式来预测人们购买轿车的情况。通过对数据库中数据的挖掘,DM可能这样回答:在北京地区处于A年龄段、收入在X、y之间的用户比上海地区相同的用户会购买更多的轿车。 6. 数据挖掘在商业中的应用 关联分析 关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。 动机: 寻找数据中固有的规律

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档