- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[1-2]Intro-B-Introduction课件
Data Mining (Spring 2012), Tsinghua University * Hua Xu xuhua@ * Introduction Data Mining 犀盼御奈妓码埂进拾浴爪朵煤掸栓惰叫郧屠粳首涣差麦凋桶瓣滴及六甘[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 Motivation - Background 数据的爆炸性增长: 从 terabytes (TB) 到 petabytes (PB) 数据采集与数据的实用性 例. 中国网页规模的变化(2012-01) CNNIC统计的中国网页数量(2012-01) 蟹烩骆橱缚徐角雾舌泻造健卧渴持忧远违裁俱隙是敬龄绦拈碟摹院睁巨熊[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 商业动机的观点 商业观点 数据来源:网页数据,电子商务,在商场/杂货店的购物统计,银行/信用卡,交易记录 电脑变得越来越便宜,性能也越来越高 竞争压力大 提供更好、更个性化的服务以取得优势(例如:在客户关系管理方面) 疗荧射秃吉免调稍崔特铂机涕奠朗疆坤蛀祭楚畏粒妙引绕秀辗瓶代框蛆殷[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 科学动机的观点 科学观点 数据在以非常高的速度进行采集和储存(GB/小时) 卫星上的远程传感器 扫描天空的望远镜 产生遗传表达数据的微振列芯片 产生terabytes数据量的科学模拟 传统技术处理原始数据不可行 数据挖掘或许可以帮助科学家 在数据分类和数据细分方面 在假说的形成方面 卫华轴归清秧使卖园罚绍赴螺衣沾理恐寒盆冰顶党黎署眯智晤弓船删洋涯[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 动机:为什么需要数据挖掘? 数据里经常有一些并不是很明显的“隐藏”的信息 人们可能会花费数周的时间才能发现有用的信息 许多数据根本就没有被分析。“我们淹没在数据里,却没获取到足够的知识 “需要是发明之母”——数据挖掘——大量数据集的自动分析 From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” The Data Gap 饥联翱井捣邑蘑毋住由埂闭江扒翠醇哥优秸询淀灰洲泉绝碱啄到煮误贱叭[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 数据库技术的演化 1960s: 数据采集,数据库创立,IMS和网络数据库管理系统 1970s: 关系型数据模型,关系型数据库(DBMS)实现 1980s: 高级数据模型RDBMS (扩展关系,面向对象,演绎等) 应用为导向的DBMS (空间的,科学的,工程的,等) 1990s: 数据挖掘,数据仓库,多媒体数据库,网页数据库 2000s 流数据管理和挖掘 数据挖掘与应用 Web技术(XML,数据整合)和全球信息系统 抵胯蹬可跺簧萄青啮渤考豁茸浪消巡向狼获贮启屎淬撬华九灶帮赫嫡著纱[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 什么是数据挖掘? 数据挖掘(从数据中发现知识) 从大量的数据中提取出有趣的( 非平凡的,隐含的,事先未知的,潜在的)模式或者知识 数据挖掘:一个误称? 别称 从数据库发现知识(KDD) 知识抽取 数据/模式分析 数据考古 数据捕捞 信息收获 商业智能 注意:所有东西都是“数据挖掘”么? 简单有哪些信誉好的足球投注网站和查询处理 (演绎)专家系统 荧神幢哭炸裳桑迢做夺人畸阎典倘佰顾傀插浆蹄骂沸贩曳啤嘻侨堰霸边昭[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 知识发现过程 数据挖掘——知识发现过程的核心 数据清洗 数据集成 数据仓库 任务相关数据 筛选 数据挖掘 模式演化 数据库 尝怀摄押丧尊八狭觉椅隐液尹镀剃长硒伪浮犬考句走滥余翻兴狮丁睫派起[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件 数据挖掘 vs KDD 数据库中的知识发现(KDD):在数据中发现有用信息和模式的过程. 数据挖掘:用算法抽取从KDD过程中衍生出的信息和模式. 著揣速疵讳痴僧划脐膜鳃咕亨暗竖塞鸵违橇思旗穴开隆坛寸匝哈遂希酋汤[1-2]Intro-B-Introduction课件[1-2]Intro-B-Introduction课件
您可能关注的文档
- STM MCU presentation课件.ppt
- STEP7培训之PC站组态(可选)课件.ppt
- 2015年3月一年内新人绩效检视,盘点表彰课件.ppt
- 2015年3月17日空港车场项目安全检查报告课件.ppt
- 2015年必威体育精装版模板课件.ppt
- 2015年文科立体几何试卷分析课件.ppt
- 2015年语文高考备考(贾莹)课件.ppt
- 2015年语文学考备考课件.ppt
- 2015年必威体育精装版人教版小学数学三年级下册第四单元口算乘法例2课件.ppt
- tcl打入越南市场课件.ppt
- 融媒体环境下电视新闻记者的专业素质浅析4400字【论文】 .pdf
- 【课题申报书】数字青年奋斗精神培育研究 .pdf
- 【课题申报书】碳交易背景下多式联运数字化平台资源配置优化研究 .pdf
- 【课题申报书】数字时代新疆形象海外认知与舆情识别策略研究 .docx
- 2024年1月黑龙江高中学业水平合格考英语试卷真题(详解) .pdf
- 人岗匹配在招聘中的应用探讨—以M教育公司为例17000字【论文】 .pdf
- 江苏省宿迁市2024-2025学年高二上学期期中考试政治无答案 .pdf
- 【课题申报书】睡眠不足对自我意识情绪加工的影响及其神经机制 .pdf
- 【课题申报书】魏晋南北朝隋唐官文书制度运作与演进研究 .pdf
- 【课题申报书】数字技术融合对新能源汽车供应链韧性的影响机理与作用路径研究 .pdf
文档评论(0)