- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘:概念与技术 数据挖掘:概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 第1章 引言 英文幻灯片制作:Jiawei Han 中文幻灯片编译:范明 第一章 引论 动机:为什么要数据挖掘? 什么是数据挖掘? 数据挖掘:在什么数据上进行? 数据挖掘功能 所有的模式都是有趣的吗? 数据挖掘系统分类 数据挖掘的主要问题 动机: 需要是发明之母 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中 我们正被数据淹没,但却缺乏知识 解决办法: 数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等) 数据处理技术的演进 1960s: 数据收集, 数据库创建, IMS 和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.) 1990s—2000s: 数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库 什么是数据挖掘? 数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式 其它叫法和“inside stories”: 数据挖掘: 用词不当? 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 为什么要数据挖掘?—可能的应用 数据库分析和决策支持 市场分析和管理 针对销售(target marketing), 顾客关系管理, 购物篮分析, 交叉销售(cross selling), 市场分割(market segmentation) 风险分析与管理 预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析 欺骗检测与管理 其它应用 文本挖掘 (新闻组, email, 文档资料) 流数据挖掘(Stream data mining) Web挖掘. DNA 数据分析 市场分析与管理(1) 用于分析的数据源在哪? 信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究 针对销售(Target marketing) 找出顾客群, 他们具有相同特征 : 兴趣, 收入水平, 消费习惯, 等. 确定顾客随时间变化的购买模式 个人帐号到联合帐号的转变: 结婚, 等. 交叉销售分析(Cross-market analysis) 产品销售之间的关联/相关 基于关联信息的预测 市场分析与管理(2) 顾客分类(Customer profiling) 数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类) 识别顾客需求 对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客 提供汇总信息 各种多维汇总报告 统计的汇总信息 (数据的中心趋势和方差) 法人分析和风险管理 财经规划和资产评估 现金流分析和预测 临时提出的资产评估 交叉组合(cross-sectional) 和时间序列分析 (金融比率(financial-ratio), 趋势分析, 等.) 资源规划 : 资源与开销的汇总与比较 竞争: 管理竞争者和市场指导 对顾客分类和基于类的定价 在高度竞争的市场调整价格策略 欺骗检测和管理(1) 应用 广泛用于健康照料, 零售, 信用卡服务, 电讯 (电话卡欺骗), 等. 方法 使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例 例 汽车保险: 检测这样的人, 他/她假造事故骗取保险赔偿 洗钱: 检测可疑的金钱交易 (US Treasurys Financial Crimes Enforcement Network) 医疗保险 : 检测职业病患者, 医生和介绍人圈 欺骗检测和管理(2) 检测不适当的医疗处置 澳大利亚健康保险会(Australian Health Insurance Commission) 发现许多全面的
您可能关注的文档
- 《手机销售产品推介技巧》课件.ppt
- 《手机透明壳工艺说明》课件.ppt
- 《手机腾讯网销售手册Q4 v1(toX客户)03》课件.ppt
- 《手机新浪网介绍》课件.ppt
- 《手机新媒体》课件.ppt
- 《手机新品发布会》课件.ppt
- 《手机银行业务功能》课件.ppt
- 《手机营销》课件.ppt
- 《手机应用》课件.ppt
- 《手机应用演讲》课件.ppt
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
最近下载
- 2024年刑法知识考试题库及答案【基础+提升】.pdf VIP
- 支气管镜诊疗操作相关大出血的预防和救治专家共识.pdf
- 2022年太原理工大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- 2023年太原理工大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- PP板_MSDS.doc
- 土木工程识图9剖面图和断面图.ppt
- 2024届高三英语一轮复习:说题比赛 ---2021年新高考II卷语法填空课件.pptx VIP
- 长输管道施工组织方案.doc
- 大职赛生涯闯关参考答案.docx VIP
- AST_中央企业班组长岗位管理能力资格认证(三期模拟1030)-0019.pdf
文档评论(0)