- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于云计算的数据挖掘平台架构及其关键技术研究
随着互联网尤其是移动互联网、物联网的快速发展,目前我们已处于数据、信息过载的海量信息时代。据数据调查公司IDC研究报告显示:2011年全球被创建和复制的数据总量为1.8 ZB,较去年同期,这一数据上涨了1 ZB,全球信息总量每过两年就会增长1倍。用户面对海量信息却很难找到自己真正感兴趣的内容[1].同时随着运营商逐渐推出移动互联网产品应用商店、阅读、游戏、社区等产品,如何分析挖掘这些产品生成的海量数据,将成为运营商迫切需要解决的问题。 云计算的出现,使得数据挖掘平台有了新的发展方向,也使得新一代的数据挖掘平台成为可能。云计算是能够提供动态资源、虚拟化和高可用的计算平台。云计算平台可被用来开发高性能的应用程序[2-3].但是对于数据挖掘来说,海量数据本身具有噪声、异构、算法复杂、技术复杂等问题,而现在的云计算开发平台并没有提供数据规约等功能。因此文章通过对于数据挖掘、云计算的详细描述和分析,提出了基于云计算的数据挖掘平台。该平台架构基于云计算的基础能力,并符合云计算软件即服务(SaaS)的设计理念。该平台还能极大减少运营商、企业在数据挖掘技术上的投入并能加快其挖掘业务的推出,缩短研发周期,进一步提高产品收益。1基于云计算的数据挖掘策略1.1数据挖掘
数据挖掘[4-6]是一个从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的但具有潜在实用信息和知识的过程。从数据挖掘的定义可以看出数据挖掘是知识发现领域的一个重要技术,它涉及到人工智能、机器学习、模式识别、统计学等高技术领域,具体技术包括特征化、关联、聚类、预测分析等。数据挖掘在互联网、移动互联网、电信、金融、科学研究等领域得到了广泛的应用,例如Facebook的好友推荐、和淘宝网的商品推荐、银行的防欺诈分析等。传统的数据挖掘技术建立在关系型数据库、数据仓库之上的,对数据进行计算,找出隐藏在数据中的模型或关系,并在大规模的数据上进行数据访问和统计计算,整个挖掘的过程需要消耗大量的计算资源以及存储资源[7]. 随着云时代的到来和移动互联网的快速发展,数据规模从MB、级发展到TB、PB级甚至EB、ZB级,并且面临着TB级的增长速度,数据挖掘的要求和环境也变得越来越复杂,从而形成“数据量的急剧膨胀”和“数据深度分析需求的增长”这两大趋势,使得40年来一直适用的数据库系统架构在海量数据挖掘方面显得力不从心[8]. 综合上述,传统的数据挖掘技术及其体系架构在云时代的海量数据中已经出现了不少问题,其中首先是挖掘效率的问题,传统的基于单机的挖掘算法或基于数据库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成海量数据的分析;其次高昂的软硬件成本也阻止了云时代数据挖掘系统的发展;最后传统的体系架构不能完成挖掘算法能力的提供,基本是在以单个算法为整体模块,用户只能使用已有的算法或重新编写算法完成自己独特的业务。 云计算云计算[9-10]是一种商业计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。同时云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算科学概念的商业实现。
通常认为云计算包括以下3个层次的服务:基础设施即服务(IaaS)、平台即服务(PaaS)、SaaS;其中IaaS提供以硬件设备为基础的计算、存储和网络服务,实现了对硬件资源的抽象并服务化提供,使得分布式计算和分布式存储成为现实。 云计算具有一些特点[10-11]:
(1)虚拟化。云计算支持用户在任意位置使用各种终端以获取应用服务,所请求的资源来自云而不是固定的、有形的实体,并且对于用户来说只需要使用云提供的服务即可。(2)通用性。云计算不针对特定的应用,而是可以在云的支撑下构造出千变万化的应用,同一个云可以同时支撑不同的应用运行。(3)高可扩展性及超大规模。云的规模可以动态扩展,并且这种动态扩展对用户是透明的,并且不影响用户的业务和应用。同时这种扩展是超大规模的,如Google云计算已经拥有上百万台服务器,Amazon、IBM、微软等也拥有几十万台服务器。(4)可靠性高。云计算使用多副本容错、多计算节点同构可互换等措施来保障服务的高可靠性。(5)经济性好。云的特殊容错机制导致可以采用廉价的节点来构成云,而云的自动化集中式管理使得大量企业无需负担日益高昂的数据中心管理成本。云的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受云的低成本优势。1.3数据挖掘云化策略
云计算的出现即给数据挖掘带来了问题和挑战,也给数据挖掘带来新的机遇——数据挖掘技术将会出现基于云计算的新模式。如何构建基于云计算的数据挖掘平台也将是业界面临的主要问题之一,创建
您可能关注的文档
- 教师年度考核工作介绍.doc
- 教师普法学习计划.介绍.doc
- 基于变频器的钢铁厂的增硅系统的程序设计介绍.doc
- 列管式换热器课程设计介绍.doc
- 教师师德演讲稿精选大全(26篇)介绍.doc
- 基于垂直投影法的车牌字符分割算法设计介绍.doc
- 裂缝型储层预测新方法和新技术介绍.doc
- 基于单片机的T9汉字输入法介绍.doc
- 教师语言文字规范化基本功培训介绍.doc
- 林锦丽-文献翻译介绍.doc
- 2024-2025学年湖北省安陆市第一高级中学高三5月校际联合期中考试英语试题试卷含解析.doc
- 2023-2024学年北京市中央民族大学附中高三第二次联考语文试卷含解析.doc
- 2024-2025学年江西省余江县第一中学高考语文试题一模试卷含解析.doc
- 2024-2025学年北京海淀北京科技大学附属中学招生全国统一考试语文试题模拟测试试题含解析.doc
- 2023-2024学年四川省彭州中学高考全国统考预测密卷语文试卷含解析.doc
- 2023-2024学年吉林省长春市高考语文一模试卷含解析.doc
- 2024-2025学年天津市十二重点中学高三高考热身试题含解析.doc
- 2023-2024学年黑龙江哈师大附中高考语文必刷试卷含解析.doc
- 2024-2025学年湖北省武汉市外国语学校5月高三月考语文试题含解析.doc
- 2024-2025学年湖南省道县补习学校高三第二学期期末练习(二模)语文试题试卷含解析.doc
最近下载
- 【历史】七年级下册必背知识点汇总+2024-2025学年统编版七年级历史下册.docx VIP
- 《中国神话故事》名著导读读后感课件PPT(完美版).pptx VIP
- AQ 6111—2023个体防护装备安全管理规范知识培训.pptx
- GB50235-2010 工业金属管道工程施工规范.pdf
- 人教版一年级数学下册期中测试卷含答案.docx VIP
- 2025机动车检测站授权签字人试题库及参考答案(通用版).docx VIP
- 2024至2030年中国香草油香精行业市场运营格局及未来前景展望报告.docx
- SAJ三晶PDG10智能水泵变频器用户手册使用说明书.pdf
- 2025年上海市16区语文中考一模汇编 专题03文言文对比阅读(纯文言篇,模考真题22篇)含详解.docx VIP
- 中国结直肠癌诊疗规范 必威体育精装版版本ppt课件.pptx VIP
文档评论(0)