大数据体系结构问题与挑战.PDFVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据体系结构问题与挑战

大数据体系结构问题与挑战 -大数据体系结构研讨会 1 2 1 1 杨晨 ,郭崎,王春凯,孟小峰 1 (中国人民大学信息学院) 2 (中国科学院计算技术研究所) 2015 年12 月2 日由中科院计算所和中国人民大学联合主办的大数据体系结构研讨会在 中国人民大学逸夫会议中心召开。中科院计算所徐志伟研究员和中国人民大学孟小峰教授担 任大会主席。研讨会共邀请到俄亥俄州立大学张晓东教授、上海交通大学戚正伟教授、国防 科学技术大学窦勇教授、中科院计算所陈云霁研究员、加州大学圣芭芭拉分校谢源教授、清 华大学舒继武教授、华中科技大学冯丹教授、北京工业大学丁志明教授、南洋理工大学何丙 胜教授、卡内基•梅隆大学郭崎博士后等10 位专家参加,并就大数据计算系统架构、大数据 微体系结构、大数据存储系统和大数据系统软件等4 个议题展开讨论。 关键词:大数据体系结构、大数据管理、存储、计算 1 引言 互联网的广泛应用、业务流的日趋复杂和数据获取方式的增多催生了大数据时代的到来, 随之以“MapReduce”为核心思想的各类大数据系统蓬勃发展。然而,大数据计算存在的单节 点存储容量小、计算实时性高、通信频繁等问题,往往会阻碍计算性能的充分发挥,导致当 前大数据系统的效率下降。 如图1 所示,目前大数据体系结构的相关研究以存储和计算两方面展开。存储问题主要 表现为,数据密集型应用中,系统节点内部因传统体系结构限制,数据访问和移动代价问题 更为突出。计算问题主要表现为,需求的复杂和多样性,使以CPU 为核心的通用计算模型 难以完全应对,致使计算性能低、能耗高。针对大数据特点的新型计算机体系结构也由此被 广泛关注,且逐渐成为研究热点,但其上的软件系统研发、专门人才培养和系统生态构建等 问题也不容忽视。因此,上述问题的必威体育精装版研究动态和未来的研究方向,成为了本次“大数据 体系结构研讨会” 的重点讨论话题。 大数据体系结构 存储问题 计算问题 硬件角度 软件角度 专用处理单元通用处理单元 图1 大数据体系结构问题及相关研究方向 2.大数据存储问题及相关研究 传统体系结构下,以CPU 为计算中心,数据最终被移入CPU 并接受处理,存储以分层 方式缓解存储墙问题,但数据访问的平均时间依然是计算的200 倍。大数据背景下,数据密 - 38 - 集型应用陡增,数据更为频繁的换进换出,其访问代价问题更加突出。因此,传统体系结构 已不能适应大数据的计算特点,针对该问题主要有以下两方面的研究工作。 (1)从硬件角度出发,使用新硬件或新技术加快数据访问。 针对主存瓶颈,NVM 较传统硬件访问延迟更低,3D 堆叠技术可有效提高内存带宽。 NVM 延迟接近于DRAM,且具有非易失性和高容量。NVM 代替(或部分代替)DRAM 作 为主存使用时,由于非易失性,数据可直接从主存读取,使内存计算成为可能,元数据及热 数据直接存储在NVM 上或利用其字节寻址特点,构建主存文件系统,均是加快数据访问的 研究热点。3D 堆叠技术使单个封装体内堆叠多个芯片,从而芯片可直接互连,互连线长度 显著缩短,因此内存体积更小、容量更大且速度更快。利用eDRAM 或3D 堆叠内存特性可 将更多的内存移至 CPU/GPU 片内,或移动更多计算操作进入内存,如 processing-in-memory(PIM)和near-data-computing(NDC)思想都是加快数据访问很好的尝试。 针对外存瓶颈,SSD 作为可量产的新型外部存储,较HDD 延迟更低;HDFS 等分布式 文件系统较传统文件系统可靠性更高、容量更大。针对 SSD 的低延迟和读写不一致性,专 门优化过的日志型文件系统能进一步挖掘SSD 潜力,从而提高数据访问效率;针对其特有 的随机读写特

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档