2015浙大数据挖掘离线作业.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章 引言 一、填空题 (1 )数据库中的知识挖掘 (KDD) 包括以下七个步骤: 数据清理 、 数据集 成 、 数据选择 、 数据变换 、 数据挖掘 、模 式评估 和 知识表示 (2 ) 数据挖掘的性能问题主要包括: 算法的效率 、 可扩展性 和 并行处理 (3 ) 当前的数据挖掘研究中,最主要的三个研究方向是: 统计学 、 数据路技术 和 机器学习 (4 ) 孤立点是指: 一些与数据的一般行为或模型不一致的孤立数据 二、简答题 (1)什么是数据挖掘? 答: 数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的, 有用的, 隐含的,先前未 知的和可能有用的模式或知识。 (2 )一个典型的数据挖掘系统应该包括哪些组成部分? 答: 1,数据库、数据仓库或其他信息库; 2,数据库或数据仓库服务器; 3 ,知识库; 4 , 数据挖掘引擎; 5 ,模式评估模块; 6. 图形用户界面。 (3 )Web 挖掘包括哪些步骤? 答:数据清理(可能有占全过程的 60% 的工作量);将数据存入数据仓库;建立数据立方 体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式) ;展 现挖掘结果;将模式或者知识应用或者存入知识库。 (4 )请列举数据挖掘应用常见的数据源。 (或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据路、 数据仓库、 事务数据库和高举数据库系统和信息库。 其中国际数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、 多媒体数据库、 面向对象数据库和对象关系数据库、 异种数据库和遗产数据库、 文本数据库 和万维网等。 第二章 认识数据 一、填空题 (1)两个文档向量 d 和 d 的值为: d = (1, 0, 3, 0, 2) ,d = (3, 2, 0, 0, 1) ,则它们的余弦 1 2 1 2 相似度为: 5/13 (2 )数据离散度的常用度量包括 极差 、 分位数 、 四分位数 、 百分位数 四分位数极差 和 标准差 (3 )一种常用的确定离群点的简单方法是: 出落在至少高于第三个四分位数或低于第一个 四分位数 1.5*IQR 处的值 。 二、单选题 (1 ) 对 于 下 图 所 示 的 正 倾 斜 数 据 , 中 位 数 、 平 均 值 、 众 数 三 者 之 间 的 关 系 是 : A 、中位数 =平均值 =众数; B 中位数 平均值 众数; C、平均值 中位数 众数; D ;众数 中位数 平均值 选 C (2 )下面的散点图显示哪种属性相关性? A 不相关; B 正相关; C 负相关; D 先正相关然后负相关; 选 C 三、简答题 (1)什么是基于像素的可视化技术?它有什么缺点? 答:对于一个 M 维数据集,基于像素的可视化技术在屏幕上创建 m 个窗口,每维一个。 记录的 m 个维值映射到这些窗口对应位置上的 m 个像素。像素的颜色反映对应的值。基于 像素的可视化技术的缺点; 难以呈现对维空间的数据分布, 不显示数据子空间是否存在稠密 区域。 (2 )对称的和不对称的二元属性有什么区别? 答:对称的二元属性指变量的两个状态具有同等价值或相同权重;

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档