基于Hadoop数据聚类算法研究.docVIP

下载本文档

4
0
约3.56千字
约 8页
2018-08-31 发布于福建
举报
版权申诉

基于Hadoop数据聚类算法研究.doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop数据聚类算法研究

基于Hadoop数据聚类算法研究　　摘要：聚类算法一直备受研究者青睐。随着信息技术和数据技术的发展，数据的种类和数量急剧增长，云计算平台Hadoop成为这些数据存储和处理的新平台，基于云计算平台Hadoop的聚类算法逐渐成为热门。针对数据挖掘中的聚类问题，依托云计算模式及Hadoop平台，研究了Kmeans算法，有效改变了现有算法的局限性。　　关键词关键词：云计算；Hadoop；聚类分析；MapReduce 　　DOIDOI：10.11907/rjdk.143858 　　中图分类号：TP301.6 　　文献标识码：A文章编号文章编号2015）002000402 　　基金项目基金项目：四川省教育厅科研项目（12ZB144）；西华师范大学校基金项目（12A038）　　作者简介作者简介：徐正巧（1982-），女，宁夏盐池人，硕士，西华师范大学实验中心讲师，研究方向为数据挖掘与智能计算。　　0引言　　随着信息技术和电子商务的飞速发展，数据正以惊人的速度剧增，无论是数据量还是数据种类都越来越丰富。这些海量的数据中隐藏着大量有价值的信息，如何存储、处理这些海量数据，从这些海量数据中挖掘出有用信息，利用已有数据进行预测是目前的研究热点。　　海量数据分布在不同的计算机中，分布式计算和大规模异构系统资源共享是实现海量数据挖掘的关键技术，云计算技术为这一问题提供了理想的技术解决方案，云计算平台满足了用户“按需使用，按量付费，即需即用”的服务需求，有效解决了计算机中海量数据的存储与处理问题。　　1云计算　　1.1云计算概念　　云计算（Cloud Computing）是将存储于电脑、移动电话和智能通讯设备上的大量信息和处理器资源集中在一起进行工作的超级计算机模式。它将要完成的任务分布在大量计算机构成的资源池上，各种应用系统能够根据需要从资源池中获取计算力、存储空间和各种软件服务＼[1＼]。　　云计算是集群计算（Cluster Computing）、分布式处理（Distributed Computing）、并行计算（Parallel Computing）和网格计算（Grid Computing）的发展＼[2＼]。云计算采用计算机集群构成数据中心和资源池，使用户能够利用互联网随时随地、按实际需要共享云资源。　　1.2云计算特点　　云计算以其超大规模、高可扩展性、高可靠性、虚拟化、按需分配、廉价性和通用性等优势，使普通用户在普通计算机上都能享受到高性能计算机的存储、计算能力，给人类生活和工作带来了极大便利。目前Google、IBM、Microsoft等大型互联网企业都部署有云计算平台，供用户分享云技术带来的好处。　　1.3云计算平台　　云计算系统主要由云平台、云终端、云存储和云安全4部分组成，其中云平台是云计算系统的核心，它整合了多个数据中心的资源，统一分配和调度计算机资源、存储资源和网络资源，为用户提供了良好的计算环境、开发平台和应用软件等多种服务＼[3＼]。　　云计算平台可以划分为存储型云平台、计算型云平台以及综合云计算平台。其中，存储型云平台主要以数据存储为主，计算型云平台主要进行数据处理，综合云计算平台则兼顾计算和数据存储。　　Hadoop是一个易开发及并行处理海量数据的云计算平台，主要由两部分组成：分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce计算模型＼[45＼]，HDFS为海量数据提供存储，是分布式计算的基石，采用了M/S架构，主要执行的操作有创建、删除、移动或重命名等，架构类似于传统的分级文件系统；而MapReduce则为海量数据提供计算。　　2数据聚类分析　　聚类分析（Clastering Analysis）以对象的相似性为基础，在聚类模式之间具有更多的相似性，是数据挖掘的重要技术之一。聚类是将物理或抽象对象的集合分成由类似的对象组成多个类的过程，是现实世界中普遍存在的现象，作为统计学的一个分支，其应用非常广泛。　　在数据挖掘之前，对象类划分的数据量与类型均是未知的，因此在数据挖掘后一般需要对数据挖掘结果进行合理的分析与解释。聚类算法可分为划分法、层次法、基于网格方法、基于密度方法、图论聚类法等。数据聚类分析主要有4个步骤，如图1所示。　　图1聚类分析步骤　　3基于Hadoop的数据聚类算法　　数据挖掘的特点就是从海量数据中提取有价值的规则和信息。随着数据量和种类的急剧增加，传统的数据挖掘技术已经很难满足数据挖掘的需求。在云计算时代，海量的数据分布在不同地理位置的计算机上，现有聚类算法在时间复杂性和空间复杂性上都无法很好地解决此问题。研究思路就是将并行处理技术应用