- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第13章
物联网中的
智能决策
内容提要
智能决策是物联网“智慧”的来源。
本章将介绍数据挖掘的基本流程,基本类型和典型算法。
13.1 数据挖掘概述
13.2 数据挖掘的基本类型和算法*
13.3 智能决策与物联网
什么是数据挖掘?数据挖掘有哪三个步骤?
本章内容
13.1 数据挖掘概述
数据挖掘(Data Mining)
从大量数据中获取潜在有用的并且可以被人们理解的模式的过程。即从大量数据中提取或“挖掘”知识。
是一个反复迭代的人机交互和处理的过程,历经多个步骤,并且在一些步骤中需要由用户提供决策
数据挖掘的过程:
数据预处理、数据挖掘和对挖掘结果的评估与表示
每一个阶段的输出结果成为下一个阶段的输入
沃尔马的故事
13.1 数据挖掘概述
数据挖掘的过程
数据预处理阶段
数据准备:了解领域特点,确定用户需求
数据选取:从原始数据库中选取相关数据或样本
数据预处理:检查数据的完整性及一致性,消除噪声等
数据变换:通过投影或利用其他操作减少数据量
数据挖掘阶段
确定挖掘目标:确定要发现的知识类型
选择算法:根据确定的目标选择合适的数据挖掘算法
数据挖掘:运用所选算法,提取相关知识并以一定的方式表示
知识评估与表示阶段
模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估
知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识
13.1 数据挖掘概述
数据挖掘的过程
13.1 数据挖掘概述
13.2 数据挖掘的基本类型和算法*
13.3 智能决策与物联网
数据挖掘的基本类型和算法有那些?
本章内容
13.2 数据挖掘的基本类型和算法
数据挖掘的基本类型
关联分析(Association Analysis)
聚类分析(Clustering Analysis)
离群点分析(Outlier Analysis)
分类与预测(Classification and Prediction)
演化分析(Evolution Analysis)
描述性挖掘任务:刻画数据库中数据的一般特性
预测性挖掘任务:在当前数据上进行推断和预测
关联分析
关联分析的目标是从给定的数据中发现频繁出现的模式,即关联规则
关联规则通常的表述形式是X Y,表示“数据库中满足条件X的记录(元组)可能也满足条件Y”
以某电器商场销售记录为例:
含义:4% (支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65% (置信度)的人购买了笔记本电脑
关联分析
挖掘关联规则,需要置信度和支持度越高越好
基本概念
项集:满足若干条件的数据项的集合,如果条件数为k,则称k-项集
满足年龄(顾客, “20~29”)的项集是1-项集
满足年龄(顾客, “20~29”) 收入(顾客, “3000~5000”)的项集是2-项集
计算步骤
首先找到具备足够支持度的项集,即频繁项集
然后由频繁项集构成关联规则,并计算置信度
分类和预测
分类和预测的目标是找出描述和区分不同数据类或概念的模型或函数,以便能够使用模型预测数据类或标记未知的对象
所获得的分类模型可以采用多种形式加以描述输出
分类规则
判定树
数学公式
神经网络
…
分类与预测的区别:分类通常指预测数据对象属于哪一类,而当被预测的值是数值数据时,通常称为预测
分类和预测
以判定树方法为例,简要介绍分类的基本步骤和结果表示
问题实例:假定商场需要向潜在的客户邮寄新产品资料和促销信息。客户数据库描述的客户属性包括姓名、年龄、收入、职业和信用记录。
我们可以按是否会在商场购买计算机将客户分为两类,只将促销材料邮寄给那些会购买计算机的客户,从而降低成本。
分类和预测
用于预测客户是否可能购买计算机的判定树,其中每个非树叶节点表示一个属性上的测试,每个树叶节点代表预测结果
聚类分析
聚类的目的是将数据对象划分为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大
聚类与分类的区别:要划分的类是事先未知的
聚类分析的应用
聚类分析
聚类分析的方法
划分方法:要求事先给定聚类的数目k。首先创建一个初始划分,然后通过对划分中心点的反复迭代来改进划分。典型算法包括k-means算法和k-medoids算法等
层次方法:对给定数据集合进行逐层递归的合并或者分裂,因此可以被分为合并或分裂方法。合并方法首先将每个对象都作为独立的类,然后持续合并相近的类,直到达到终止条件为止。分裂方法首先将所有的数据对象置于一个类中,然后反复迭代并判定当前的类是否可以被继续分裂,直到达到终止条件为止
基于密度的方法:只要某区域数据密度超过阈值,就将该区域的数据进行聚类。其优势在于噪音数据下的抗干扰能力,并能够发现任意形状的聚类
聚类分析
聚类分析的方法(续)
基于网格的方法:把对象空间量化为具有
文档评论(0)