- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据计算教程
李建中:大数据计算基本概念 研究问题及部分解
作者:机房360出处:论坛2012-11-30 22:14
2012.11.30Hadoop与大数据技术大会(下午)
2012.11.30Hadoop与大数据技术大会(下午)
主持人:各位领导各位来宾下午好!欢迎大家参加Hadoop与大数据技术大会。我是本次大会的程序委员会主席之一,CSDN程序员杂志的主编刘江。首先我介绍一下这次大会是由中国计算机学会主办的、CCF专业委员会承办的大会。除了今天的全体会议之外,明天还有四个分论坛,希望大家不要错过。我们还有官方微博,如果有相关大方的发布信息可以从这里获取。另外微博评论注意加HBTC四个字母。
今天下午有来自各机构、公司的专家来分享技术。首先有请中国计算机学会大数据专家委员会副主席哈尔滨工业大学教授李建中老师为我们演讲,《大数据计算基本概念研究问题和部分解》。
李建中:非常高兴有机会和大家交流一下对大数据的理解。HIT是哈尔滨工业大学的缩写,所以我的理解可能和工业界有一点点的不同,请看一下我们学院式的对大数据的研究有什么样的看法。我讲三个问题:
第一,大数据的基本概念。
第二,大数据计算机其挑战。
第三,研究问题与部分解。
第一,大数据的基本概念。什么是大数据,实际上我的报告讲了很多了,为什么叫做描述?因为大数据实际上是结合了不可定义的概念,大是相对的,是相对目前的及拴系统计算能力来说的,今天的大数据明天就不是大数据,大数据有的人说三个V,有的人说四个V,V我也不详细说了。所以说,大数据存在已久。有一个会议叫SSDB是1983年创建的一个会议,这里面的论文就是在研究大数据,这个会议到现在已经有29年的历史了,现在为什么谈起来大数据呢?因为个时候大数据还没有那么普遍,涉及的领域很少,参加这方面研究的人也很有限,所以跟现在不同。现在的大数据和当时研究的不同主要有两点。
李建中 CCF大数据专家委员会副主任 哈工大教授
第一,大数据达到了无处不在的程度。因特网有很多的大数据,在科学研究领域、医疗领域、商业领域、制造业、智慧城市都有大量的数据。全世界的感知数据增长率是每年58%,全世界拥有的存储能力或者是存储总量的增长率是每年只有40%。到2007年是一个里程碑,到2007年全世界的感知数据已经超过了全世界所拥有的存储器的容量。到2010年的时候,全世界的感知数据是1.25千万PB,2011年产生的感知数据已经二倍于我们人类所拥有的存储器的容量。所以,我们可以得到这样的结论,大数据几乎无处不在,数据量远远超出了现有的存储能力。
第二,大数据计算及其挑战。
大数据的输入是大数据D,问题的解是f(D)。我们通常讲的时候总是讲查询、挖掘、分析,实际上已经远远地超出了这个范围。大数据是一个多学科大范围的研究领域,涉及到很多的学科。比如说在生物学、宇航学等各种领域里面都有它非常复杂的大数据的计算问题,但我们没有考虑到。大数据计算问题的空间有多大?可以把在大数据方面的活动区分成这样五个方面,一个是大数据的获取、一个是大数据的传输、一个是大数据的存储、一个是大数据的质量管理。最终,要支持大数据的问题求解。所有的五个阶段里面的问题集中起来,称之为大数据计算问题的空间。我们把求解这个空间里面的每一个问题的过程叫做大数据计算。对每个问题要研究什么呢?要研究它的可计算性、计算复杂性和求解算法。现在我们面临的挑战是四个方面。
第一,如何把现有的计算理论、现有的算法、设计方法和现有的计算系统scale to up。第二,usability的问题。如果大数据里面充满了错误,我们计算在好也不会得出正确的结论。第三,privacy的问题,如何在最大化确保privacy。第四,交叉学科的问题,如何实现多学科交叉,面临和解决大数据的领域问题,各个学科里面的大数据由于专业不同又没有能力处理这样大的数据,如何把多个学科交叉起来,然后来解决问题。所以我们面临的挑战是四个挑战。实际上大对计算的影响力是非常大的。我们在中型计算机上和64个节点的集群上做了两组实验,就在数据库里面的算法和数据苦里面的算法进行了计算。我们是用了1T到10T的数据,这样的执行时间是从68个小时到89个小时。所以,大数据项我们提出了很多的挑战,同时现有的方法和技术已经不能有效的支持大数据计算了。
第三,研究问题与部分解。
现在考虑两个基础方面的、共性的研究问题。第一个问题是大数据的计算复杂性问题。大数据的计算复杂性测度,除了时间复杂性以外还要考虑能量复杂性。云计算出来之后或者是集群技术出来之后,能量测度复杂性非常高,我们学校集群的电费就是1000多万,所以能量的问题我们不得不考虑。这样,就要在这两个测度下来考虑。时间复杂性的问题上要充分考虑问题的复杂
文档评论(0)