网站大量收购闲置独家精品文档,联系QQ:2885784924

云数据处理与挖掘的技术方案.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云数据处理与挖掘的技术方案

面向电子商务的云数据处理与挖掘平台1.前言1.1.0 何为数据处理与挖掘?所谓数据处理和挖掘(Data Mining)就是从存放在数据库,数据仓库或其他信息库中的海量数据中获取有效的、新颖的、潜在有用的、最终可理解的信息过程。从数据中提取出隐含过去未知的有价值的潜在信息。1.1.1 使用云数据处理与挖掘的意义随着信息科技的进步以及电子化时代的来临,现今企业所面对的是一个与以往截然不同的竞争环境,不仅企业竞争的强度与速度倍增,市场交易也使得各企业所需储存与处理的数据量越来越庞大。在这种情况下,企业的焦点已从以往的数据整理与搜集转向有效地利用数据库来进行信息的获取。企业如何适应外界的竞争?如何才能快速有效地从数据库中取得有用的信息?如何反映市场或消费者的需求?这些都已成为各企业重视的焦点。数据挖掘的技术可将原始数据转换为可执行的企业指针,例如了解客户的全貌;预测未来的行为以创造客户更高的价值;建立客户流失预测模型以防止客户的流动;建立风险及信用评估模型以降低企业经营风险;区隔市场挖掘新商机等企业经营决策指针。也唯有将信息转化为企业利润的提升,才能真正显数据仓储及客户关系管理等系统的投资效益。因此,数据挖掘运用的范围广泛,不但可用来将数字资产转换为有形的企业营收,更可用来作为其它系统的效益。1.1.1 云数据处理与挖掘的应用领域目前企业界已将数据挖掘应用于多种领域,例如科学、营销、工业、商业、体育、财务、银行、制造厂、通讯、电信业、网络相关行业、零售商、制造业、医疗保健及制药业,等等。1.1.1 云数据处理与挖掘的未来商业前景网际网络盛起前,握有最多信息的便是赢家。迈入信息爆炸的网络时代后,企业获取及利用信息的方式将决定企业的竞争优势。对于现代企业而言,数据可以被视为重要的资产,但是又必须要能利用这些数据,也就是把这些庞大的数据转换为有用的信息,才能产生真正的价值。研究结果显示:企业所处理的数据每五年就会呈倍数成长。大部分的企业并没有数据不足的问题,过度的数据重复与不一致才是大问题,这使得企业无论在使用、有效管理、以及将这些数据用于决策过程方面都遭遇到了困难。因此市场需要的是能够将数据转变成可靠与可用信息的系统。现代的企业体经常搜集了大量数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。所以妥善地运用数据挖掘技术,并以此从巨量的数据库中将发掘出不同的信息与知识作为决策支持之用,必将能产生并加强企业的竞争优势。2.云数据处理与挖掘的整体框架2.1.0 架构图图-2.1.0 所示3.云数据处理与挖掘框架的详细设计3.1.0Mysql的海量数据分片设计图随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的网络应用,每天几十亿的浏览量无疑对数据库造成了很高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构开发人员第一考虑的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了死机造成的损失。通过负载均衡策略,有效的降低了单机的访问负载,降低了死机的可能性;通过集群方案,解决了数据库死机带来的单点数据库不能访问的问题;通过读写分离策略将更大限度提高了应用中读取数据的速度和并发量,其数据分片架构图如下:图-3.1.0 所示通过一系列的切分规则将数据水平分布到不同的数据库或表中,在通过相应的数据库路由或者表路由规则找到需要查询的具体的数据库或者表,以进行查询操作。接下来举个例子:我们针对一个博客应用中的来说明,比如杂志文章(article)表有如下字段:article_id(int),title(varchar(128)),content(varchar(1024)),user_id(int)其实分析这种博客的应用,能够理解:博客的应用中,用户分为浏览者和博客的主人。浏览者浏览某个博客,实际上是在一个特定的用户的博客下进行浏览的,而博客的主人管理自己的博客,也同样是在特定的用户博客下进行操作的。所谓的特定的用户,用数据库的字段表示就是“user_id”,它就是我们需要的分库规则的基础。3.1.1 Mysql 的海量数据物理分片物理分片通过一系列的切分规则将数据分布到不同的DB服务器上,通过路由规则访问特定的数据库,这样每次访问的就不是单个服务器了,而是多台服务器,这样就可以降低单个服务器的负载压力。图-3.1.1 所示优点:数据在多个机器上分布,性能高,降低死机的可能性少,数据丢失率小缺点:数据冗余的情况下,数据的一致性难以保证3.1.2 Mysql 的海量数据软件分片通过一系列的切分规则,将数据分布到一个数据库的不同表中,比如将articl

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档