- 1、本文档共89页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘简单概括
第1章 引言 第2章 数据预处理 第3章 数据仓库与OLAP技术概述 第4章 数据立方体计算与数据泛化 第5章 挖掘频繁模式、关联和相关 第6章 分类和预测 第7章 聚类分析 第8章 挖掘流、时间序列和序列数据 第9章 图挖掘、社会网络分析和多关系数据挖掘 第10章 挖掘对象、空间、多媒体、文本和Web数据 第11章 数据挖掘的应用和发展趋势 体系结构:典型数据挖掘系统 在何种数据上进行数据挖掘(数据源) 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW) 数据仓库 数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。 数据挖掘的应用 数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析 数据挖掘应用——市场分析和管理(1) 数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化) 数据挖掘应用——公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中 数据挖掘应用——欺诈行为检测和异常模式的发现 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义 其他应用 体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究 数据挖掘的主要方法 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。 关联规则是形如X ? Y,即”A1∧...∧Am ? B1∧...∧Bn”的规则;其中,Ai(i∈{1,...,m}),Bj(j∈{1,...,n})是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y中条件”。 例1.6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的规则 age(X, “20···29”) ^ income(X, “20···29K”) ? buys(X, “CD_player”) [support = 2%, confidence = 60%] 其中,X是变量,代表顾客。该规则是说,所研究的AllElectronics顾客2%(支持度)在20-29岁,年收入20-29K,并且在AllElectronics购买CD机。这个年龄和收入组的顾客购买CD机的可能性有60%(置信度或可信性)。 关联规则挖掘在第6章详细讨论。 数据挖掘的主要方法 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油
您可能关注的文档
最近下载
- 人教版初中英语课标版 九年级第十单元Section A 3a—3c(21张).pptx
- 中小企业融资-全套PPT课件.pptx
- 2024年麻醉、精神药品规范化管理与使用培训考核有答案.docx
- 【基恩士】LR-W500(C) 使用说明书 (简体中文).pdf
- 11第十一章-通货膨胀与通货紧缩(货币金融学(蒋先玲编著)第3版ppt课件可编辑).pptx
- 人美版八年级上册美术教案.pdf VIP
- 工科基础物理学(下册)课后习题答案董科,周雨青,张玉萍高等教育出版社.pdf
- Unit 6 A Day in the Life (Period 1)课件-人教版英语七年级上册(2024).pptx VIP
- 光伏支架及光伏组件安装工程施工方案.docx VIP
- 曲安奈德局部封闭治疗.pptx VIP
文档评论(0)