- 1、本文档共55页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘基础知识培训
2024/12/2121.数据挖掘基本原理3.数据挖掘技术4.最优化技术5.文本挖掘技术2.数据预处理技术
什么是数据挖掘2024/12/213随着信息技术的高速发展,全球新产生的数据年增40%,全球信息总量每两年就可以翻番!而对新增数据的处理,能力以及其利用率的增长则不足5%。全球数据总量增长趋势每两年翻一番
什么是数据挖掘2024/12/214数据挖掘(DataMining)●数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据爆炸式增长激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析;目前的数据库系统仅能够实现数据的录入、查询和统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,显示出它的局限性;1995年数据挖掘应运而生联机事务处理(OLTP)数据管理,查询技术上世纪70年代以来,关系式数据库联机分析处理(OLAP)对数据汇总、合并、聚集,验证假设上世纪80年代后期,数据仓库1995年后,数据挖掘数据挖掘(DM,DataMining)数据建模、算法(非常规方法)知识:趋势、规则、模式、结构数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。知识发现(KnowledgeDiscoveryinDatabase,KDD)
从商业数据到商业信息化的进化2024/12/215进化阶段商业问题支持技术产品厂家产品特点数据搜集
(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问
(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持
(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘
(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息
数据挖掘的社会需求2024/12/216数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期
数据挖掘与统计分析的区别2024/12/217数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘得到的信息具有先未知,有效和可实用三个特征。一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。
数据挖掘系统的结构2024/12/218数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库
数据挖掘标准流程60业务理解、数据预处理(数据理解和数据准备)包含60%工作量;需要注意的是,以上6个步骤并非完全按照此顺序来执行。在实际应用中,需要针对不同的应用环境和实际情况作出必要的调整。此外,一个数据挖掘项目通常并不是一次性地执行了上述6个步骤就结束了,它往往是一个反复迭代、不断完善的过程。CRISP-DM1999年欧盟机构联合起草.通过近几年的发展,在各种KDD过程模型中成为标准流程。
数据挖掘标准流程商业理解也叫业务理解,最初的阶段集中在理解项目的目标和从业务的角度理解需求,同时将这个知识转换为
文档评论(0)