《ODPS权威指南》1.1 初识ODPS.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《ODPS 权威指南》1.1 初识ODPS 开放数据处理服务(Open Data Processing Service,ODPS)是一个海量数据处理 平台,基于阿里巴巴自主研发的分布式操作系统开发,以云计算服务的形式支撑集团数据分 享和海量数据处理业务的发展,其官方访问地址是 /product/odps/。 ODPS 提供 PB 级别的数据处理能力,适用于 海量数据存储、数据仓库构建、数据统计和挖掘、机器学习和商业智能等领域。 1.2.1 背景和挑战 今天,移动、交易、广告、社会化游戏、在线传感器以及工业传感器数量在迅猛增长, 数据规模给传统技术带来了很大的挑战。随着规模的不断增长,传统软件无法承载大数据处 理的重任。从大型互联网企业的数据仓库和 BI 分析、中型网站的 LOG 分析、电子商务网站 的交易分析到手机采集的数据分析、用户特征和兴趣挖掘,以及 GIS、图像、语音、视频、 基因组分析,从底层的存储计算到数据分析语言,从应用开发编程模型到机器学习算法,这 一切的一切,都需要大数据处理平台来支撑。麦肯锡评估报告认为大数据在政府公共服务、 医疗服务、零售业、制造业以及个人位置服务等领域都将带来可观的价值。迈尔.舍恩伯格 的《大数据时代》[① 维克托·迈尔·舍恩伯格著,《大数据时代》,浙江人民出版社,2013。] 一书更是探讨了大数据时代给我们的生活、工作和思维带来的大变革。奥巴马政府在 2012 年 3 月宣布启动 “大数据研究与开发计划”,致力于提高政府从庞大复杂的数据资料中抽 取和挖掘信息的能力。IBM 定义了当前大数据的4V 特征:海量数据规模(Volume)、快 速数据流转和动态数据体系(Velocity)、多样的数据类型(Variety)以及真实性(Veracity)。 阿里研究中心也洞见了大数据的方向:分析和挖掘是手段,发现和预测是最终目标。大数据 已然成为企业掘金的新蓝海,要开采大数据这个金矿,更是离不开海量数据平台的支撑!在 1 / 5 大数据背景下,不可避免地面临着大规模的挑战。大规模的数据计算处理,需要把数据分布 到多台机器并行处理。在单机环境下,往往不需要考虑失败问题,因为机器崩溃了,程序无 法恢复。但是在分布式环境下,机器数量很大,多台机器需要协作,局部失败的几率变得很 高:比如硬件上某台机器 “挂了”,其上运行的任务都 “挂了”;网络上交换机或路由器崩 溃;计算节点磁盘空间不足或内存溢出;数据在传输中出错或网络中断,等等。在分布式环 境下,这些问题变成 “家常便饭”,系统应该有能力从这种局部失败中恢复,用户可以不关 心这些错误,继续正常工作。提供这种 “弹性”是软件工程面临的巨大挑战。 安全和正确 性是面临的另一大课题。把数据放在 “云” (分布式存储)上,安全性是重中之重,而对于 数据处理,保证计算正确性是一切的基础。 1.2.2 为什么做 ODPS 阿里巴巴是最早预见到云计算和大数据的互联网公司之一。早在六七年前,阿里就把 自己看成一家未来的数据公司,并且把 “数据分享第一平台”作为公司的愿景。面对大数据 规模挑战,阿里自主研发了云计算平台 “飞天”以及海量数据处理平台 ODPS。阿里巴巴多 年来坚持投资开发飞天和 ODPS 平台的初心就是希望有一天能够以安全和市场的模式,让 中小互联网企业能够使用阿里巴巴最宝贵的数据。飞天和 ODPS 一直承载着实现这一梦想 的使命。 大数据处理平台是一个非常复杂的系统。像 ODPS 这样的系统,其涉及的设备数 量和软件规模相当于一个地市级电网或者早期人造卫星系统,需要非常专业的运维和运营团 队支撑;系统改进升级涉及数据安全和对业务的影响。从人类工程技术发展历史来看,这样 的平台系统最终只能以基础设施和公共服务的形式存在。 通过这种方式,可以实现大规模 和服务化。它给用户带来的直接好处是低成本,因为同一个用户在不同时间对存储计算资源 的需求有很大差异,平台规模足够大之后,价格市场化和削峰添谷会带来明显的成本优势, 2 / 5 为每个用户节约成本。此外,平台运维和运营的专业化可以极大节省用户的运营成本,更重 要的是显著降低互联网创业公司的创新门槛和试错成本。 数据是世界上最沉重的东西,在 互联网上搬动TB 级甚至 PB级的数据是一件极为困难的事情,尤其对于不断更新的数据集。 在计算领域,很早就有 “计算靠近数据”的设计原则,充分利用局部性原理(da

文档评论(0)

文人教参 + 关注
实名认证
文档贡献者

老师教学,学生学习备考课程、成人语言培训课程及教材等为提升学生终身学习竞争力,塑造学生综合能力素质,赋能学生而努力

版权声明书
用户编号:6103150140000005

1亿VIP精品文档

相关文档