- 1、本文档共76页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据导论;第6章 数据挖掘;6.1 什么是数据挖掘; 从大量数据中找出对人们有用的信息的整个过程,是一个知识挖掘的过程,而数据挖掘只是其中的一个步骤。在进行数据挖掘之前,先要对数据进行采集、预处理及存储,再使用数据挖掘技术,提取有用的信息。
如图6-1所示,整个知识挖掘过程由如下6个步骤组成。
;图6-1 知识挖掘的过程;(1)数据清洗(Data Cleaning)即对采集到的数据做预处理,清除无效数据及与目标无关的数据。
(2)数据集成(Data Integration)即将来自多个数据源的数据集中在一起。
(3)数据转换(Data Transformation)即将数据转换为易于挖掘和分析的格式进行存储。
;(4)数据挖掘(Data Mining)即利用有效的算法和工具挖掘出潜在的知识和规则。
(5)模式评估(Pattern Evaluation)即根据一定的评估标准从挖掘出的结果中筛选出满足条件的知识。
(6)知识表示(Knowledge Presentation)即利用可视化的方式展示所挖掘出的知识。
; 图6-2所示为一个典型的数据挖掘系统,主要包括如下组件。;(1)数据库、数据仓库即数据挖掘对象,可以有一个或多个。一般需要对采集到的数据进行数据清洗与集成操作,这是一个数据预处理过程。
(2)数据库或数据仓库服务器负责根据用户的数据挖掘请求,读取相关数据。
(3)知识库存放数据挖掘的领域知识,用于指导数据挖掘的分析过程,或者用于协助评估挖掘结果。例如,用户定义的阈值就是一个最简单的领域知识。
;(4)数据挖掘引擎包含一组挖掘功能模块,如关联分析、分类分析、聚类分析等。数据挖掘引擎是数据挖掘系统中至关重要的一个组件。
(5)模式评估即根据所定制的挖掘目标,与数据挖掘相结合,从数据挖掘的结果中获取有用的信息。数据挖掘选用的挖掘算法影响着二者的耦合程度,数据挖掘算法与模式评估的耦合度越强,其挖掘效率就越高。
(6)可视化用户接口提供用户与数据挖掘系统之间的交互界面,用户可通过可视化接口提交挖掘需求或任务给数据挖掘系统,数据挖掘系统向用户展示数据挖掘结果。
; 作为一个应用驱动的领域,数据挖掘有机结合了多学科技术,其中包括高性能???算、机器学习、数据库、统计学、可视化等许多应用领域的大量技术,如图6-3所示。这些技术都促进了数据挖掘技术的发展。;6.2 数据挖掘的对象与价值;1.关系型数据库
数据库系统也被称为数据库管理系统(DataBase Management System,DBMS),是用于创建、使用和维护数据库的大型软件,确保数据的一致性、安全性和完整性。
关系型数据库是表的集合,每个表有唯一的名字和一组属性,并可存放大量的记录。
关系型数据库是数据挖掘最流行、最丰富的数据源,是数据挖掘研究的主要对象。;2.数据仓库
某跨国公司A在世界各地都有分公司,每个分公司都有自己的数据库,每个数据库的物理存放地也不同。现在总公司要求汇总公司第二季度每种商品、每个分公司的销售情况。这就需要一个数据仓库,从各个分公司收集数据,通过一致的模式进行存储,如图6-4所示。
数据仓库通过数据清洗、数据集成、数据变换、数据装入并定期对数据刷新。;
数据仓库一般用多维数据库结构建模,每个维度对应一组属性。数据集市是数据仓库的一个子集。;3.面向对象数据库
面向对象数据库是基于面向对象程序设计的,其将一个实体看作一个对象,如每个顾客、商品都可以当作一个对象,一个对象的相关属性和行为都被封装在一个单元中。
对具有公共特性的对象可以归入一个类。每个对象都是这个类的一个实例。类可以生成子类,子类可以继承父类的公共特性,又可以有自身的特性。
除了关系型数据库、数据仓库、面向对象数据库的数据外,还有许多其他类型数据。这些数据具有各种各样的形式和结构,有很多不相同的语义,如图6-5所示。;图6-5 数据挖掘的数据类型;6.2.2 数据挖掘的价值
可以从技术价值、商业价值、行业价值、社会价值4个方面来探讨数据挖掘的价值。
大数据有一个经典理论——“三重门”。“三重门”即“交易门”“交互门”“公开市场门”,与数据挖掘的技术价值、商业价值、行业价值一一对应。;1.技术价值
数据挖掘与数学、统计学、计算机学、算法等基本理论知识无法分割。数据挖掘技术水平的突飞猛进也给基础学科领域带来最直接的跃进。数据挖掘不仅创造了新的计算方式、技术处理方式,更为其他技术的研发、应用和落地提供基础,如人工智能等。
大数据“三重门”理论的“交易门”是数据挖掘技术价值的核心映射。; “交易门”即客户与企业之间的交易数据,是一种“事后”数据
您可能关注的文档
- 安全教育读本急救篇———生活急救常识 贴身小卫士.pptx
- 安全教育读本校园篇———维护学校稳定 构建和谐校园.pptx
- 安装RODC额外控制器.ppt
- 大数据导论第1章 什么是大数据.pptx
- 大数据导论第2章 大数据技术基础.pptx
- 大数据导论第3章 数据采集与预处理.pptx
- 大数据导论第4章 大数据存储与管理.pptx
- 大数据导论第5章 大数据计算框架.pptx
- 大数据导论第7章 数据可视化.pptx
- 大数据导论第8章 大数据与云计算.pptx
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)