- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据挖掘原语,语言和系统结构
第4章:数据挖掘原语,语言和系统结构 数据挖掘原语: 定义数据挖掘任务 一种数据挖掘查询语言 根据数据挖掘查询语言设计图形用户界面 数据挖掘系统的结构 数据挖掘原语:定义数据挖掘任务 任务相关的数据:我想挖掘什么数据集 要挖掘什么类型的知识:这是说明要执行的数据挖掘函数 背景知识:什么背景知识在这里可能有用 兴趣度度量:哪些度量可以用来评估模式的兴趣度 发现模式的表示和可视化:这涉及发现模式的显示形式 任务相关的数据 第一个原语是说明待挖掘的数据。 通常,用户感兴趣的只是数据库的一个子集。 在关系数据库中,任务相关的数据集可以通过 选择、投影、连接和聚集等操作来收集。这种 数据提取可以认为是数据挖掘任务的一个“子任 务”。 数据收集过程产生一个新的数据关系,称作为初 始数据关系。 初始数据关系在用于数据挖掘前,可能被清理和 转换。 初始数据关系可以对应于、也可以不对应于数据 库中的物理关系。由于虚拟关系在数据库领域称 为视图,这种用于数据挖掘任务相关的数据集称 作为可挖掘的视图。 数据收集过程产生一个新的数据关系,称作为初 始数据关系。 初始数据关系在用于数据挖掘前,可能被清理和 转换。 初始数据关系可以对应于、也可以不对应于数据 库中的物理关系。由于虚拟关系在数据库领域称 为视图,这种用于数据挖掘任务相关的数据集称 作为可挖掘的视图。 在数据仓库中,数据通常存放在数据立方体中,它可以使用多维数组结构、关系结构或者二者的结合的方式来实现。任务相关的数据集可以通过条件的过滤、数据立方体的切片和切块等操作来指定。 注意:在数据挖掘查询中,数据选择条件可以在比数据库和数据仓库中的数据更高的概念层上指定。 对于用户而言,说明相关属性或者维可能是一个困难的任务,在这种情况下,有些机制可以帮助用户给出任务相关数据的更精确说明。另外,有哪些信誉好的足球投注网站具有强语义联系属性的技术也可以用来加强用户说明的初始数据集。 要挖掘的知识的类型 知识类型包括:概念描述(特征化和判别式)、关联、分类、预测、聚类和演变分析。 对于给定的数据挖掘任务,除了要说明要挖掘的知识类型外,用户可能想进一步说明和提供所有发现模式必须匹配的模式模板。这些模板,即元模式(元规则或者元查询)可以用于指导发现过程。 例:一个研究AllElectronics的顾客购买习惯的用户可能选择挖掘如下形式的关联规则: P(X:customer,W)∧ Q(X,Y) = buys (X,Z) 其中, X是关系customer的关键字; P和Q是谓词变量,它们可以被例示为作为任务相关数据的一部分说明的相关属性或者维;而W、Y和Z是对象变量,它们可以在关于顾客X的谓词上取值。 关联规则的有哪些信誉好的足球投注网站限于匹配给定的元规则的那些,如: age(X,”30…39”)∧ income(X,” 40k…49k”) = buys (X,”VCR”) [2.2%,60%] occupation(X,”student”)∧ age(X,”20…29”) = buys (X,”computer”) [1.4%,70%] 背景知识:概念分层 概念分层定义了一组由低层概念集到高层概念集的映射。 概念分层结构以组织成树的节点集表示,其中每个节点本身代表一个概念。一个特殊的节点all作为树根,它表示给定维最一般的值。概念分层的树叶对应于维的原始数据值(原始层数据)。 概念分层的类型: 模式分层:是数据库的全序或者偏序。其可以形式地表示属性间的语义联系。通常,一个模式分层指定了数据仓库的一个维。 集合分组分层:将给定属性和维的值组织成常量组或者区间值。组之间可以定义为全序或者偏序。当两种类型的分层结构结合时,集合分组可以用于精练或者丰富模式定义的分层。通常,集合分组分层用于定义对象联系的小集合。 操作导出分层:是根据用户、专家和数据挖掘系统说明的操作分层,操作包括信息编码串的解码、由复杂数据对象提取信息和数据聚类。 基于规则的分层:是指整个概念分层或它的一部分由一组规则定义,并且根据当前数据库和规则定义动态地计算。 兴趣度度量 这里提供四种度量:简洁性、确定性、实用性、新颖性。一般来说,每种度量都有一个可以由用户控制的阈值。不满足阈值的规则被认为是不感兴趣的,因而不作为知识向用户提供。 简洁性:模式的简洁性的客观度量可以看作是模式结构的函数,用模式的二进位位数,或者属性数,或者模式中出现的操作符数来定义。例如,规则长度就是其中的一种。 确定性:每个发现的模式都应当有一个表示其有效性或者“值得信赖性”的确定性度量。例如,置信度就是其中的一种。 实用性:一个模式的潜在的有用性是定义其兴趣度的一个重要因素。例如,支持度就是其中的一种。 新颖性:
文档评论(0)