- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘及应用概述 内容 数据挖掘概念与应用 背景、概念、过程、应用 主流数据挖掘方法论简介 Semma、crisp-dm等等 常见数据挖掘算法简介 关联规则、决策树、神经网络等等 数据挖掘在电信上的应用 客户细分、流失预测等等 数据爆炸与客户需求 数据以惊人速度生成 如电信详单、银行交易记录、科学试验数据等 用户期望更加深入的信息 如 哪些用户是将要流失的用户? 如何从大量数据中找到隐含的信息? 数据挖掘 一些典型问题 找出欺诈行为的存在,给出欺诈行为特征 违规操作的存在,违规操作的特征。 对行动,事件进行监控,分析,给出预报,预警 犯罪行为的特点 各种案件的特征,特点 信用的评估(信贷,信用卡A等级) 各种案例库的建立与查找(医疗,法律案例) 恐怖活动的预警 经济活动间关系分析与预警 经济发展规律的特点(宏观经济与微观经济份分析) 商业交易行为的分析 商品的促销,库存的减少 选举的预测 比赛的分析与预测 电视节目的编排 一些典型问题 销售一个产品 广告 材料 邮寄给谁 信贷中信用评估,信用卡评级,信用卡欺诈发现 保留客户, 争取客户,交叉销售 违规操作,欺诈行为发现 货架货物的摆放 国民经济各指标间的关系 反洗钱的问题(大额,可疑外汇交易…) 疾病, 症状, 药物, 疗效之间的关系 DNA序列的相似分析,导致各种疾病的特定基因序列模式 偷税、漏税、逃税的发现 技术发展趋势 竞争对手的策略 市场的竞争策略,销售的策略 热点话题挖掘,各种观点的归纳 大到恐怖活动的迹象……等 数据挖掘是从海量的数据中发现未知 并且有价值的规则和模式的过程。 数据→信息→决策 功能:预测、分类、关联、聚类等 数据挖掘简要发展过程 80年代,各种学习算法/数据建模方法相继提出 1989:KDD(Knowledge Discovery in Data (Database))”数据库知识发现”概念正式提出 1995:第一届正式国际学术会议召开 1995:第一本关于知识发现和数据挖掘的书出版 1997:全球约6-8数据挖掘专著,国外应用开始发展 当前:数据挖掘专著已达数百种;各大学均开设相关课程,国内应用开始启动 知识发现(KDD)还是数据挖掘? 两者最初由不同社区提出 知识发现由人工智能界提出 数据挖掘由统计学界提出 目前两者概念统一为: 知识发现:数据中寻找有用信息和模式的过程 数据挖掘:在KDD过程中使用算法提取信息和模式 即前者强调过程,后者强调算法,一般情况可混用 数据挖掘-多学科的融合 数据挖掘与其他学科的关系 数据挖掘vs数据库查询 数据库查询问题 问题定义良好,可用SQL描述,返回精确数据 找出姓“胡”的所有信用卡申请客户 找出上个月购买金额超过10000元的客户 找出购买了牛奶的所有客户 数据挖掘问题 问题定义不明确,无精确描述语言,返回近似结果 找出具有信用风险的所有信用卡申请客户 找出具有相似购买行为的客户 找出所有经常和牛奶一起购买的物品 数据挖掘vs统计学 算法不一样 统计学算法比如多元线性回归、时间序列、因子分析、主成分分析等等 数据挖掘算法比如决策数、神经元、RBF、关联算法、演示图算法 很多算法即为统计学算法,也为数据挖掘算法 数据量大小不同 统计学的数据集相对较小,超过30则称为大样本数据,而数据挖掘偏重于海量数据 数据挖掘功能 预测型 分类 回归 预测 时间序列分析 描述型 划分 摘要 依赖发现 数据挖掘功能与算法 分类:把数据映射到预先定义好的目标类别中 如把一篇文章划分到“编程”类或“医疗”类 可用技术:决策树、BP网络、支持向量机、贝叶斯方法、K近邻、规则归纳方法等等 回归:把数据映射到连续值的目标中 如求明年GDP的预测值 可用技术:回归、支持向量机等 数据挖掘功能与算法 划分:把没有预先定义类别的数据划分成几个合理的类别 如客户细分 可用技术:k均值、kohenon等 摘要:形成数据的高度浓缩子集及其描述 如文档自动摘要 可用技术:统计方法等 依赖分析:发现数据项之间的关系 如使用彩铃次数和交往圈大小之间的关系 可用技术:关联规则、因子分析、序列发现 数据挖掘工具调查 行业应用-国外调查 国内数据挖掘应用 金融业(银行信贷、信用评估、信用卡等级,保险,证卷分析、监管、预警, 外汇管理……) 电信(各移动通信公司几乎都在启动) 商场(客户分析,货物摆放,交叉销售…) 地税(异常发现,漏税…) 生产部门(石油,钢铁,…) 医疗(医疗,药物…) 客户关系管理(CRM) 网站及电子商务 网络安全 科学(天体,气象) 目前主流的数据挖掘方法论 IBM公司提出的方法论 SAS公司提出的方法论 SPSS公司提
文档评论(0)