- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
6.2.3知识发现与语义挖掘
6.2海量感知数据的挖掘与分析
分类
聚类分析
分类是数据挖掘的一项非常重要的任务,它是在已有数据的基础上创建一个分类函数或构造一个分类模型(即通常所说的分类器),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。最大树聚类法介绍
6.2.3知识发现与语义挖掘
6.2海量感知数据的挖掘与分析
最大树聚类法是模糊聚类方法的一种,和传递闭包法一样,最大树法也要通过正规化,通过标定步骤建立起相似系数构成的相似矩阵。MapReduce是Google提出的分布式并行计算编程模型。Hadoop是MapReduce的一种开源实现,同时实现HDFS这样一种分布式文件系统。6.3.1基于文件的数据存储技术6.3海量数据存储HDFS分布式文件系统6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS(HadoopDistributedFileSystem)是一种高度容错的分布式文件系统模型,采用Java实现。采用主从式(Master/Slave)架构,有1个名称节点和若干个数据节点组成。HDFS以文件形式存储数据。6.3海量数据存储HDFS的体系结构6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS中,名称节点作为中心服务器控制所有的文件操作,是所有HDFS元数据的管理者。数据节点提供存储块,负责本节点的存储管理。如下页图中所示。HDFS以文件形式存储数据,将存储文件分为一个或多个数据单元块,然后复制这些数据块到一组数据节点中。数据节点在名称节点的统一调度下创建、删除和复制数据块。HDFS命名空间的层次结构域现有大多数文件系统类似:用户可以创建、删除、移动和重命名文件。区别在于,HDFS不支持用户磁盘配额和访问权限控制,也不支持硬链接和软连接。HDFS的体系结构6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS中的文件被分割为64MB的单元块。文件小于单元块大小,该文件并不会占满该单元块的存储空间。HDFS大单元块的设计是为了尽量减小寻找数据块的开销。如果单元块足够大,数据块的传输时间会明显大于寸照数据块的时间HDFS的数据组织与操作6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS的数据组织与操作–文件读取6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS的数据组织与操作–文件读取1)客户端获取HDFS文件系统DistributedFileSystem的实例,调用open()方法。2)DistributedFileSystem通过RPC远程调用名称节点,确定文件组成单元块的位置信息。名称节点返回每个单元块及其副本的数据节点地址,这些数据节点按照相对于客户机的距离排序。DistributedFileSystem向客户端返回FSDataInputStream,而FSDataInputStream封装了管理名称节点和数据节点I/O的DFSInputStream。3)客户端调用FSDataInputStream的read()方法。6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS的数据组织与操作–文件读取4)FSDataInputStream中的DFSInputStream保存前几个单元块的数据节点地址信息,然后连接存储着文件单元块的最近数据节点,重复调用read()方法读取数据,返回给客户端。5)当第一个单元块读取结束,DFSInputStream关闭与该数据节点的连接,然后寻找下一个单元块的最佳数据节点,DFSInputStream和数据节点建立连接的顺序决定了文件单元块的读取顺序,并且通知名称节点检索下一批所需单元块的数据节点地址。6)最后,客户端调用FSDataInputStream的close()方法结束文件读取操作。6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS的数据组织与操作–文件写入6.3.1基于文件的数据存储技术-HDFS6.3海量数据存储HDFS的数据组织与操作–文件写入1)首先,客户端调用DistributedFileSystem中
您可能关注的文档
最近下载
- 基于核心素养小学数学计算教学研究.doc VIP
- 2024江西赣州市国资委招聘出资监管企业内设监事会人员21人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx VIP
- Shimano禧玛诺渔具 电动轮BeastMaster 2000EJ(04163)说明书.pdf
- 卫生院科室设置及职能范文.docx
- 北京市大兴区2023-2024学年九年级上学期期中数学试题.docx
- 铝合金门窗节能专项施工方案.doc
- 经典成语故事郑人买履.ppt VIP
- 基于核心素养小学数学计算教学研究.doc VIP
- 2024-2030年中国化工仓储行业市场发展趋势与前景展望战略分析报告.docx
- WST 356-2024 参考物质互换性评估指南.pdf
文档评论(0)