数据科学_鄂维南.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据科学_鄂维南

数据科学——鄂维南一、数据科学的基本内容大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问:多大才算是“大数据”?“大数据”和“海量数据”有什么区别?其实根本没有必要为“大数据”这个名词的确切含义而纠结。“大数据”是一个热点名词,它代表的是一种潮流、一个时代,它可以有多方面的含义。“海量数据”是一个技术名词,它强调数据量之大。而数据科学则是一个学科、一门新兴的学科。为什么要强调数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样?作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的共性。现代社会的各行各业都充满了数据,而且这些数据也是多种多样,不仅包括传统的结构型数据,也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且是随机模型的反问题。所以,对它们的研究有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划方法,其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以,用于图像处理的算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就可以很明显地看出来。除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据,前者包括象生物信息学、天体信息学、数字地球等领域,后者包括统计学、机器学习、数据挖掘、数据库等领域,这些学科都是数据科学的重要组成部分,但只有把它们有机地放在一起,才能形成整个数据科学的全貌。用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律。开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的,表9-1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。表9-1太阳系八大行星绕太阳运动的数据行星周期(年)平均距离周期2/距离2水星金星地球火星木星土星天王星海王星0.2410.6151.0001.88011.80029.50084.010165.0000.390.721.001.525.209.549.1830.060.981.011.001.010.991.001.001.00开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么这就成了一个两体问题。因此很容易求出这个常微分方程组的解,并由此推出开普勒的三大定律。牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然,所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们发现了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决,量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理,这应该说是很成功,但事情远非这么简单。正如狄拉克指出的那样,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。所以,如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。再举另外一个例子,表9-2中形象地描述了一组人类基因组的SNP数据(SingleNucleotidePolymorphismdata)。一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主组分分析,就可以得到图9-1中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量,对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法,即主组分分析而展示出来。主组分分析是一种最简单的数据分析方法,它的做法是对数据的协方差矩阵作对角分解。表9-2SNP数据的示意图SNP1SNP2……SNPm志愿者1志愿者2志愿者3?志愿者n01……002……119……1其中:n=1064,m=644258,0,1,…,9分别代表碱基对是AA,AC,CC,…。参见:JunZ.Lietal,“Worldwidehumanrelationshipsinferredfromgenome-widepatternsofvariation”,Scie

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档