网站大量收购独家精品文档,联系QQ:2885784924

大数据挖掘与统计机器学习-吕晓玲-全套课件.pdf

大数据挖掘与统计机器学习-吕晓玲-全套课件.pdf

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘与统计机器学习 吕晓玲 中国人民大学统计学院 1 自我介绍 • 教育背景 • 本科 硕士:南开大学数学学院概率论与数理统计专业 • 博士:香港城市大学商学院管理科学系 • 访学经历 • 2007年:奥地利林兹约翰开普勒大学统计系 • 2012年:美国伯克利加州大学伯克利分校统计系 • 工作经历 • 2000年– 2004年:香港城市大学商学院管理科学系研究助理 • 2007年至今:中国人民大学统计学院讲师 副教授 • 研究兴趣 • 统计机器学习方法 • 消费者行为统计分析 2 本次交流分享大纲 • 关于本书 • 对部分知识点的体会 • 大数据案例 3 一、关于本书 • 写作目的 • 大数据应用统计专业硕士 • 高年级本科生、从事数据分析的实际工作者 • 主要内容 • 有监督的学习:回归与分类 • 无监督的学习:聚类、推荐系统 • 模型选择和模型评价 • R、Python上机实践 • 大数据案例分析: 单机及分布式实现 • 主要参考书 • James, Witten, Hastie and Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, Springer • Hastie, Tibshirani, Friedman (2008), The Elements of Statistical Learning – Data Mining, Inference and Prediction, Second Edition, Springer 4 二、对部分知识点的体会 • 1. 第一章:数据智慧 • 统计学是一门科学,应该是以分析数据、解决问题为导向,不断 的提出新方法,并探讨其理论性质。 • 郁彬(2016 ),数据科学中的数据智慧, 《中国计算机学会通讯》 (中译稿) • 将统计学核心部分重新定义为“数据智慧”非常必要,因为它比“应用 统计学”这个术语起到更好的概括作用。 • “数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察 力以及良好的判断力相结合,思辨性地理解数据并依据数据做决策的一 种能力。 5 • 十个基本问题 • (1)要回答的问题 • (2 )数据收集 • (3 )数据的含义 • (4 )相关性 • (5 )问题的转化 • (6 )可比性:数据变换 • (7 )可视化 • (8 )随机性:数据的代表性、结果的不确定性 • (9 )稳定性:结果的可解释性、可重复性 • (10)结果验证 6 • 2. 第二章:岭回归与Lasso 回归 • (1)一张图看懂岭回归和Lasso回归

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档