《复杂数据统计方法——基于R与Python的实现》PPT课件.pptx

《复杂数据统计方法——基于R与Python的实现》PPT课件.pptx

  1. 1、本文档共475页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《复杂数据统计方法——基于R与Python的实现》PPT课件.pptx

复杂数据统计方法—基于R与PythonMarchMarch30,20231/

统计应该是科学,但发展成两种文化统计是科学(science),而科学的基本特征是其方法论:对世界的认识源于观测或实验的信息(或者数据),总结信息时会形成模型(亦称假说或理论),模型会指导进一步的探索,直至遇到这些模型无法解释的现象,这就导致对这些模型的更新和替代.这就是科学的方法.只有用科学的方法进行的探索才能称为科学.科学的理论完全依赖于实际,统计方法则完全依赖于来自实际的数据.统计可以定义为“收集、分析、展示和解释数据的科学”1,或者称为数据科学(datascience).将统计学作为科学加以发展的关键人物是RonaldAylmerFisher(1890—1962),Fisher相信统计的存在是为了预测、解释和处理数据,由于在统计学方面的杰出工作,他被描述为“一位几乎以一己之力为现代统计科学奠定基础的天才”(Hald,1998)和“20世纪统计学最重要的人物”(Efron,1998).在遗传学方面,他利用数学将孟德尔遗传学和自然选择结合起来,促成了达尔文主义在20世纪早期对进化论的修订,即现代综合论的复兴.由于对生物学的贡献,Fisher被称为“达尔文最伟大的继承者”(Edwards,2011).作为科学的统计1根据《不列颠百科全书》的定义,“statistics,thescienceofcollecting,analyzing,presenting,andinterpretingdata”,该条款网址为/science/statistics.March2/

在20年前的2001年,著名统计学家、机器学习先驱LeoBreiman发表了著名文章《统计建模:两种文化》(StatisticalModeling:TheTwoCultures)(Breiman,2001),给统计界带来了深远影响.Breiman的思想和实践促进了机器学习的飞速发展.时至今日,该文章依然是统计领域的经典.在该文章的摘要中,Breiman说:在使用统计建模从生成数据到得到结论的过程中,有两种统计建模文化.一种是数据模型,假设数据是通过给定的随机数据模型生成的.另一种是算法模型,将数据生成机制视为未知.一直以来,统计界几乎完全使用数据模型.这种情况导致了无关紧要的理论、有问题的结论,并使统计学家无法研究广泛、有趣的现实问题.算法建模,无论在理论上还是实践上,都在统计学之外的领域飞速发展.它既可以用于大型复杂的数据集,也可以用于小型数据集.在小型数据集的处理上,算法模型比数据模型更准确,能产生更丰富的信息.作为一个领域,如果我们的目标是能够使用数据来解决问题,那么我们需要摆脱对数据模型的完全依赖,采用更加多样化的工具.作为科学的统计March3/

在RichardOlshen对Breiman的采访中,Breiman表示(OlshenBreiman,2001):我感觉,在一定程度上,统计可能已经迷失了学术方向.……目前进行的学术研究似乎离我们无比遥远,好像只是抽象数学的某一分支一样.……而Fisher相信统计的存在是为了预测、解释和处理数据.……Webster词典是这么定义的,“收集、处理和分析事实或数据,并展示某种事物的主要信息.”如果使用动词来描述它,就是“一门收集、分类、处理并且分析事实和数据的科学”.然而,如今统计的学术圈里已经没有那个定义了.举个例子,我正在看AnnalsofStatistics杂志,我估计20篇文章里也就一篇有数据或者把它的方法应用到了某种数据上吧,在JASA里的占比也高不到哪里去.所以我的观点是:统计中吸引人的东西与目前的学术研究已经相去甚远,分道扬镳了.在过去的五六年里,我与机器学习和神经网络领域的人走得很近,因为他们正在为一些复杂的、困难的预测问题做一些非常重要的应用工作.他们以数据为方向,所做的也与Webster词典对统计的定义相一致,然而,他们大都不是受过

文档评论(0)

粱州牧 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档