统计建模与数据分析.pptxVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计建模与数据分析主讲人:李婷婷西南大学数学与统计学院第1页,共26页。 参考书籍:《复杂数据统计方法——基于R的应用》,吴喜之编著,中国人民大学出版社第2页,共26页。 主要内容引 言横截面数据:因变量为实数轴上的数量变量横截面数据:因变量为分类变量及因变量为计数变量的情况纵向数据(多水平数据、面板数据)多元分析(不分因变量和自变量)路径建模(结构方程建模)数据的PLS分析多元时间序列数据第3页,共26页。 引 言第4页,共26页。 统计是科学统计是科学?科学的基本特征是其方法论:对世界的认识源于观测或实验的信息(或者数据), 总结信息时会形成模型(亦称为假说或理论), 模型会指导进一步的探索, 直到遇到这些模型无法解释的现象, 这就导致对这些模型的更新和替代.统计可以定义为``收集、分析、展示和解释数据的科学, 或者称为数据科学(science of data).统计应用于几乎所有领域. 第5页,共26页。 统计与数学、计算机的关系统计的思维方式是归纳(induction), 也就是从数据所反映的现实得到稍微一般的模型, 希望以此解释数据所代表的那部分世界. 这和以演绎(deduction)为主的数学思维方式相反,演绎则是在一些人为的假定 (比如一个公理系统)之下, 推导出各种结论.第6页,共26页。 在统计发展的前期, 没有计算机, 只能在对数据加上一些数学假定后, 建立一些假定的数学模型, 推导出结果的性质, 诸如置信区间, 假设检验的p值, 相合性等等. 在数据分布与假定的正态分布相差甚远的情况, 人们又利用诸如中心极限定理或大样本定理得到渐近正态的结果.据此又得到大样本时的各种性质, 包括置信区间或置信带, p值, 相合性等等.统计的这种发展方式, 给统计打上了很深的数学烙印.第7页,共26页。 在现成的数学模型无法处理大量的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题。诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型。统计研究逐步由数据或者问题驱动,创造模型的目的是适应现实数据。第8页,共26页。 随着时代的前进, 院系现在也出现了诸如数据挖掘、机器学习等课程, 统计杂志也开始逐渐重视这些研究. 这些算法模型大都不是用封闭的数学公式来描述,而是体现在计算机算法或程序上. 参考书籍:The Elements of Statistical Learning:Data Mining, Inference, and Prediction. Second Edition. Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer第9页,共26页。 学术期刊Top 期刊The Annals of Statistics.Journal of the Royal Statistical Society, Series B.Journal of the American Statistical Association.Biometrika.Journal of Machine Learning ResearchEconometrika Biostatistics第10页,共26页。 文献检索文献检索的一点经验No sweat, No sweet. 第11页,共26页。 数据分析的实践数据收集. 首先要根据实际目的. 有数据不一定能够得到需要的结论, 我们需要的是与所关心问题充分有关的变量的数据.数据预处理. 缺失值寻找适合的模型:为了寻找模型,首先要对数据进行探索性分析,利用图形、各种统计量、或者比较复杂的探索方法来查看数据的关联性、线性性、异方差性、多重共线性、聚类特征、分布形状等。有了对数据的粗略认识之后,就寻找合适的模型。第12页,共26页。 数据分析的实践比较模型的标准. 传统统计中: 各种判别准则(各种检验、一些统计量的临界值等等). 都是在对数据分布及描述变量之间关系的模型所做的假定之下得到的. 在使用算法模型时, 由于没有传统模型的那些假定, 判断模型好坏通常都用交叉验证(cross validation)。对结果的解释. 选择模型并不是目的, 目的是解释模型所产生的结果, 而结果必须是应用领域的结果, 必须有实际意义. 仅仅用统计术语说某个模型较好, 某个变量显著之类的话是不够的.第13页,共26页。 R软件入门R软件的安装第14页,共26页。 最初几步x=1:100#把1,2,...,100个整数向量赋值到xsample(x,20) #从1,...,100中随机不放回地抽取20个值作为样本set.seed(0);sample(1:10,3)#先设随

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地上海
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档