2015浙大数据挖掘离线作业.pdf

下载文档

0
0
约1.09万字
约 9页
2021-08-26 发布于上海
举报
版权申诉
保障服务

2015浙大数据挖掘离线作业.pdf

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一章引言一、填空题（1 ）数据库中的知识挖掘 (KDD) 包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示（2 ）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理（3 ）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据路技术和机器学习（4 ）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据二、简答题（1）什么是数据挖掘？答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的，有用的，隐含的，先前未知的和可能有用的模式或知识。（2 ）一个典型的数据挖掘系统应该包括哪些组成部分？答： 1，数据库、数据仓库或其他信息库； 2，数据库或数据仓库服务器； 3 ，知识库； 4 ，数据挖掘引擎； 5 ，模式评估模块； 6. 图形用户界面。（3 ）Web 挖掘包括哪些步骤？答：数据清理（可能有占全过程的 60% 的工作量）；将数据存入数据仓库；建立数据立方体；选择用来进行数据挖掘的数据；数据挖掘（选择适当的算法来找到感兴趣的模式）；展现挖掘结果；将模式或者知识应用或者存入知识库。（4 ）请列举数据挖掘应用常见的数据源。（或者说，我们都在什么样的数据上进行数据挖掘）答：常见的数据源包括关系数据路、数据仓库、事务数据库和高举数据库系统和信息库。其中国际数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。第二章认识数据一、填空题（1）两个文档向量 d 和 d 的值为： d = (1, 0, 3, 0, 2) ，d = (3, 2, 0, 0, 1) ，则它们的余弦 1 2 1 2 相似度为： 5/13 （2 ）数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差（3 ）一种常用的确定离群点的简单方法是：出落在至少高于第三个四分位数或低于第一个四分位数 1.5*IQR 处的值。二、单选题（1 ）对于下图所示的正倾斜数据，中位数、平均值、众数三者之间的关系是： A 、中位数 =平均值 =众数； B 中位数平均值众数； C、平均值中位数众数； D ；众数中位数平均值选 C （2 ）下面的散点图显示哪种属性相关性？ A 不相关； B 正相关； C 负相关； D 先正相关然后负相关；选 C 三、简答题（1）什么是基于像素的可视化技术？它有什么缺点？答：对于一个 M 维数据集，基于像素的可视化技术在屏幕上创建 m 个窗口，每维一个。记录的 m 个维值映射到这些窗口对应位置上的 m 个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点；难以呈现对维空间的数据分布，不显示数据子空间是否存在稠密区域。（2 ）对称的和不对称的二元属性有什么区别？答：对称的二元属性指变量的两个状态具有同等价值或相同权重；

您可能关注的文档

文档评论（0）

tianya189 + 关注: 官方认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体阳新县融易互联网技术工作室

IP属地上海

统一社会信用代码/组织机构代码: 92420222MA4ELHM75D

1亿VIP精品文档

更多 >

2015浙大数据挖掘离线作业.pdf