大数据导论第6章 数据挖掘.pptx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据导论;第6章 数据挖掘;6.1 什么是数据挖掘; 从大量数据中找出对人们有用的信息的整个过程,是一个知识挖掘的过程,而数据挖掘只是其中的一个步骤。在进行数据挖掘之前,先要对数据进行采集、预处理及存储,再使用数据挖掘技术,提取有用的信息。 如图6-1所示,整个知识挖掘过程由如下6个步骤组成。 ;图6-1 知识挖掘的过程;(1)数据清洗(Data Cleaning)即对采集到的数据做预处理,清除无效数据及与目标无关的数据。 (2)数据集成(Data Integration)即将来自多个数据源的数据集中在一起。 (3)数据转换(Data Transformation)即将数据转换为易于挖掘和分析的格式进行存储。 ;(4)数据挖掘(Data Mining)即利用有效的算法和工具挖掘出潜在的知识和规则。 (5)模式评估(Pattern Evaluation)即根据一定的评估标准从挖掘出的结果中筛选出满足条件的知识。 (6)知识表示(Knowledge Presentation)即利用可视化的方式展示所挖掘出的知识。 ; 图6-2所示为一个典型的数据挖掘系统,主要包括如下组件。;(1)数据库、数据仓库即数据挖掘对象,可以有一个或多个。一般需要对采集到的数据进行数据清洗与集成操作,这是一个数据预处理过程。 (2)数据库或数据仓库服务器负责根据用户的数据挖掘请求,读取相关数据。 (3)知识库存放数据挖掘的领域知识,用于指导数据挖掘的分析过程,或者用于协助评估挖掘结果。例如,用户定义的阈值就是一个最简单的领域知识。 ;(4)数据挖掘引擎包含一组挖掘功能模块,如关联分析、分类分析、聚类分析等。数据挖掘引擎是数据挖掘系统中至关重要的一个组件。 (5)模式评估即根据所定制的挖掘目标,与数据挖掘相结合,从数据挖掘的结果中获取有用的信息。数据挖掘选用的挖掘算法影响着二者的耦合程度,数据挖掘算法与模式评估的耦合度越强,其挖掘效率就越高。 (6)可视化用户接口提供用户与数据挖掘系统之间的交互界面,用户可通过可视化接口提交挖掘需求或任务给数据挖掘系统,数据挖掘系统向用户展示数据挖掘结果。 ; 作为一个应用驱动的领域,数据挖掘有机结合了多学科技术,其中包括高性能???算、机器学习、数据库、统计学、可视化等许多应用领域的大量技术,如图6-3所示。这些技术都促进了数据挖掘技术的发展。;6.2 数据挖掘的对象与价值;1.关系型数据库 数据库系统也被称为数据库管理系统(DataBase Management System,DBMS),是用于创建、使用和维护数据库的大型软件,确保数据的一致性、安全性和完整性。 关系型数据库是表的集合,每个表有唯一的名字和一组属性,并可存放大量的记录。 关系型数据库是数据挖掘最流行、最丰富的数据源,是数据挖掘研究的主要对象。;2.数据仓库 某跨国公司A在世界各地都有分公司,每个分公司都有自己的数据库,每个数据库的物理存放地也不同。现在总公司要求汇总公司第二季度每种商品、每个分公司的销售情况。这就需要一个数据仓库,从各个分公司收集数据,通过一致的模式进行存储,如图6-4所示。 数据仓库通过数据清洗、数据集成、数据变换、数据装入并定期对数据刷新。; 数据仓库一般用多维数据库结构建模,每个维度对应一组属性。数据集市是数据仓库的一个子集。;3.面向对象数据库 面向对象数据库是基于面向对象程序设计的,其将一个实体看作一个对象,如每个顾客、商品都可以当作一个对象,一个对象的相关属性和行为都被封装在一个单元中。 对具有公共特性的对象可以归入一个类。每个对象都是这个类的一个实例。类可以生成子类,子类可以继承父类的公共特性,又可以有自身的特性。 除了关系型数据库、数据仓库、面向对象数据库的数据外,还有许多其他类型数据。这些数据具有各种各样的形式和结构,有很多不相同的语义,如图6-5所示。;图6-5 数据挖掘的数据类型;6.2.2 数据挖掘的价值 可以从技术价值、商业价值、行业价值、社会价值4个方面来探讨数据挖掘的价值。 大数据有一个经典理论——“三重门”。“三重门”即“交易门”“交互门”“公开市场门”,与数据挖掘的技术价值、商业价值、行业价值一一对应。;1.技术价值 数据挖掘与数学、统计学、计算机学、算法等基本理论知识无法分割。数据挖掘技术水平的突飞猛进也给基础学科领域带来最直接的跃进。数据挖掘不仅创造了新的计算方式、技术处理方式,更为其他技术的研发、应用和落地提供基础,如人工智能等。 大数据“三重门”理论的“交易门”是数据挖掘技术价值的核心映射。; “交易门”即客户与企业之间的交易数据,是一种“事后”数据

您可能关注的文档

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档