基于云计算的数据挖掘研究.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算的数据挖掘研究   摘 要:云计算的快速发展带来了基于海量数据的数据挖掘技术的研究与发展,基于云计算的数据挖掘是采用MapReduce模型对数据实现并行处理,比传统数据挖掘更高效、准确和可行,是对云计算时代海量数据进行数据挖掘的必然趋势。   关键词:云计算;海量数据;数据挖掘   随着云计算、物联网和信息技术的发展,海量形式多样复杂的数据爆炸式的迅速增长,对这些海量数据进行挖掘,分析出其潜在隐藏的巨大价值对经济社会的发展具有重要的指导作用。云计算具有的海量数据存储能力和弹性的计算能力为海量数据挖掘提供了一种有效的方式。文章首先介绍数据挖掘的定义、起源和方法,然后论述了数据挖掘的优势和存在问题,最后分析了数据挖掘实现的步骤、功能和关键技术。   1 数据挖掘概述   数据挖掘是数据库中知识发现的过程,是指从数据库中包含的海量数据中提取出隐含的、未知的、有潜在利用价值的信息的过程,这个过程主要由数据准备、数据挖掘和结果表达与解释这三个阶段构成[1]。数据挖掘具有决策支持功能,能够高效自动地对企事业的海量数据进行分析,挖掘出潜在的有利用价值的信息,从而帮助决策者做出正确合理的决策。   数据挖掘因其可对海量数据进行挖掘提取出有潜在价值的信息而被广泛关注,其主要经历了电子邮件、信息发布、电子商务和全程电子商务这四个阶段,软件即服务模式的出现形成了如今全程电子商务模式[1]。   对数据进行挖掘所采用的方法论主要有5种,分别是数据取样,数据特征探索分析和预处理,问题明确化、数据调整和技术选择,模型的研发和知识的发现,模型和知识的综合解释与评价。只要采用合理有效的数据挖掘方法才能高效的实现数据挖掘任务,提取出有价值的信息。数据挖掘可以从不同角度进行,具体来说,数据挖掘方法有分类、回归分析、聚类分析、关联规则、特征分析、变化和偏差分析、Web页挖掘等[1,2]。但是,并没有一种方法可以适用于所有数据类型的挖掘,实际应用中需要依据所挖掘数据的类型找到合适的方法对数据进行挖掘。数据挖掘具有较高的商业价值,在通信、医疗、制造和财务金融等行业应用较多。   2 基于云计算的数据挖掘优势和存在问题   采用基于云计算方式的海量数据挖掘具有其独特的优势,主要表现在以下几方面:云计算有较好的开发环境和应用环境来处理海量数据,从中挖掘出有价值的信息;云计算模式可进行分布式的并行数据挖掘,实现实时、高效的数据挖掘;基于云计算的数据挖掘开发更方便,利用现有设备对海量数据的处理能力和速度得到提高,可自由增加结点,容错性也有提高;基于云计算的数据挖掘对数据挖掘的门槛较低,满足了海量数据挖掘需求,同时确保了数据挖掘的共享性[3,4]。   云计算技术的应用虽然已经很广泛了,但其技术并不是很成熟,因此,基于云计算的数据挖掘也存在如下一些问题:数据挖掘任务、采集以及预处理具有不确定性;采用合适的算法和并行策略来处理目前海量的数据挖掘,以提高数据挖掘的并行效率;数据挖掘的方法与结果具有不确定性;对数据挖掘的结果所做出的评价具有不确定性;要确保软件和服务的正确性、安全性和高质量[3]。对于上述存在的这些问题,已经有一些策略可以去解决。   3 数据挖掘的步骤、功能和技术   3.1 数据挖掘实现的步骤   不同应用领域的数据挖掘有着不同的步骤,且任何一种数据挖掘技术都有自己特有的特性和步骤,数据挖掘的过程也会因问题和需求的不同而不同。但是数据挖掘实现的步骤大致可分以下几步:对数据的来源和数据深入理解,获取相关的知识和技术,对数据进行整合和检查,将错误和不一致的数据踢出去,对模型和假设进行建立,数据挖掘工作的实施,对数据挖掘结果进行测试和验证,对获取的信息进行解释和应用[1]。从这个处理过程可以看出,大部分工作是数据的预处理,只有完成了预处理阶段的工作才能更有效地对数据进行挖掘和分析。   3.2 数据挖掘功能   数据挖掘通过对获取的潜在的有价值信息进行分析来预测未来的发展趋势,帮助决策者做出合理正确的决策。数据挖掘的功能可以概括为以下五个方面[1]:对未来的发展趋势和行为做出自动预测,通过对数据库中数据关联进行分析生成的规则有较高的可性度,通过聚类增强对客观现实的认识和有利于描述概念与分析偏差,数据挖掘有利于对对象的内涵和相关特征进行描述,从数据库中对存在偏差的数据进行检测。   3.3 数据挖掘关键技术   数据挖掘的关键技术主要有人工神经网络、决策树、遗传算法、K近邻算法和关联式规则[1]。人工神经网络是通过采用类似于大脑神经突触连接结构对信息进行处理的一种数学模型,具有自学习、联想存储和高速寻找最优解的功能。决策树是预测模型,通过决策图和可能的结果来对目标进行规划,是特殊的树结构,包含决策节点、机会节点和终节点三

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档