- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
绪论大数据挖掘导论与案例
学习目标/Target了解大数据的概念与特征,了解大数据挖掘的过程模型了解大数据挖掘的工具与技术,了解大数据挖掘的应用了解数据科学的产生与兴起,了解数据科学工作者应具备的基础和技能
引言/Introduction国际权威机构Statista的统计和预测显示,2019年全球数据量达到41ZB,2020年达到47ZB,2025则增长到175ZB,而到2035年,这一数字将达到2142ZB。大数据已持续引起人们生活、工作和思维模式的大变革。人们的注意力已转移到寻找大数据使用的真正价值上。数据的爆炸式增长,对数据技术提出了更高的要求。
目录/Contents010203数据科学和数据科学家大数据的概念和特征大数据的主要来源0405大数据挖掘的概念和流程数据挖掘的主要任务
目录/Contents0607大数据挖掘的工具与技术大数据挖掘的应用
数据科学与数据科学家1.1
1.1.1数据科学的产生和数据科学家的兴起1962年,美国数学家JohnW.Tukey在《数理统计年鉴》上发表题为“数据分析的未来”的论文,为未来数据科学的发展奠定了基础。1966年,丹麦计算机科学家PeterNaur发明了“数据学(Datalogy)”。1974年出版《计算机方法简明概述》,首次使用“数据科学”一词,将数据科学定义为“处理数据的科学”。1977年,JohnW.Tukey出版著作《探索性数据分析》,提出:探索性数据分析和论证性数据分析能够且应该并驾齐驱。1989年,GregoryPiatetsky-Shapiro提出“知识发现”和“数据挖掘”,组织并主持了第一届“数据库中知识发现(KnowledgeDiscoveryinDatabases,KDD)”研讨会。数据科学
1.1.1数据科学的产生和数据科学家的兴起1991年,Piatetsky-Shapiro和Frawley等人出版论文合集《数据库中的知识发现》。1993年,JohnChambers发表了题为“GreaterorLesserStatistics:AChoiceforFutureResearch”的论文,呼吁统计学领域对传统统计学进行改革。文中指出传统统计学在未来的研究中将面临两种选择:(1)“更专有(Lesser)”。以数学技巧为主导,专注于传统课题和数学本身,以学术研究为主,与其他相关学科交流较少;(2)“更包容”(Greater)。从数据中学习,兼收并蓄,以应用为主,与其他相关学科交流频繁。Chambers指出更包容虽然充满挑战,但会带来更多的机遇;而更专有则有可能使传统统计学研究变得越来越边缘化。Chambers呼吁要打破传统统计学的边界,更多地专注于数据本身,正视数据分析本质上是一种基于经验的科学。数据科学
1.1.1数据科学的产生和数据科学家的兴起1989年至1994年召开4次KDD国际研讨会。1995年,数据挖掘界举办第一届“知识发现与数据挖掘”国际学术会议。1996年,国际分类协会联盟在日本神户召开的第5次国际会议上,首次正式使用“数据科学”术语,并将其纳入会议标题。会后出版会议论文选集《数据科学,分类和相关方法》,涵盖了不断发展的数据科学领域中出现的广泛主题和观点,包括与数据收集、分类、聚类、探索性和多元数据分析,以及发现和寻求知识有关的领域的理论和方法方面的进步。同年,UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知识发现与数据挖掘的进展》,汇集了知识发现和数据挖掘的研究成果。数据科学
1.1.1数据科学的产生和数据科学家的兴起1997年,应用统计学家C.F.JeffWu在“统计学=数据科学?(Statistics=DataScience?)”的演讲中,将当时定义的“统计学工作内容”描述为:数据收集、数据建模与分析、洞察与决策三部曲,并提出了他对未来统计学发展方向的展望,呼吁将统计学重新命名为数据科学。1998年,ACM-SIGKDD成立,1999年以来一直组织SIGKDD国际会议。目前,SIGKDD是数据挖掘研究领域的顶级会议。2001年,美国统计学教授WilliamS.Cleveland在《国际统计评论》上发表文章“数据科学:一种拓展统计学技术领域的行动”,首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为研究对象,与信息和计算机科学技术相结合的学科,奠定了数据科学的理论基础。数据科学
1.1.1数据科学的产生和数据科学家的兴起2002年,数据科学与技术委员会(CODATA)创办了《数据科学期刊》,聚焦于数据系统描述及其
您可能关注的文档
- 大数据挖掘导论与案例课件:大数据挖掘关键技术.pptx
- 大数据挖掘导论与案例课件:分类概念与方法.pptx
- 大数据挖掘导论与案例课件:关联分析概念与方法.pptx
- 大数据挖掘导论与案例课件:聚类分析概念与方法.pptx
- 大数据挖掘导论与案例课件:认识数据.pptx
- 大数据挖掘导论与案例课件:数据分析和可视化分析.pptx
- 大数据挖掘导论与案例课件:数据预处理.pptx
- 电动汽车原理与构造(第3版)课件:电动汽车电动化辅助系统.ppt
- 电动汽车原理与构造(第3版)课件:燃料电池电动汽车技术.ppt
- 电动汽车原理与构造(第3版)绪论.ppt
- 2025年市国资委党委开展深入贯彻中央八项规定精神学习教育工作方案与开展学习中央八项规定主题教育工作方案(2篇文).docx
- 在2025年市商务局党组研究部署深入贯彻中央八项规定精神学习教育专题会上的讲话稿、教育动员部署会议上的讲话提纲【2篇文】.docx
- 开展2025年学习八项规定主题教育工作方案与领导在局机关深入贯彻八项规定精神学习教育部署会上的讲话稿(两篇文).docx
- 2025年深入贯彻中央八项规定精神学习教育实施方案与全面落实中央八项规定精神情况总结(2篇文).docx
- 2025年落实中央八项规定精神情况总结稿与领导在深入贯彻中央八项规定精神学习教育工作会议的主持讲话稿(2篇文).docx
- 2025年组织部长在八项规定学习教育工作专班座谈会的讲话稿与开展学习中央八项规定主题教育工作方案(两篇文).docx
- 学习2025年深入贯彻中央八项规定精神知识测试题135题【附答案】与全面深入贯彻中央八项规定精神学习教育实施方案.docx
- 2025年县委书记在中央八项规定精神学习教育动员会上的讲话稿遵守党的政治纪律和落实中央八项规定精神情况个人对照检查材料(2篇文).docx
- 2025年在深入贯彻中央八项规定精神学习教育动员部署会上的讲话稿与在市委党的建设工作领导小组会议暨部署深入贯彻中央八项规定精神学习教育专题会讲话稿(两篇文).docx
- 2025年市工业园区党工委开展深入贯彻中央八项规定精神学习教育工作方案与深入贯彻中央八项规定精神学习教育动员部署会讲话提纲【2篇文】.docx
最近下载
- 第五次全国营养调查报告.docx VIP
- 《妇产科护理》课件——第二章 女性生殖系统解剖与生理.ppt VIP
- 阳春市巨阳新能源120MW渔光互补光伏发电综合利用项目升压站建设项目环境影响报告表.doc VIP
- 2023年下半年浙江绍兴市柯桥区卫生健康单位招聘119人笔试备考题库及答案解析.docx
- 自然保护区的设计原则.ppt VIP
- 全国第三届职业技能大赛(智能网联汽车装调运维)选拔赛理论考试题库(含答案).doc VIP
- 2025年河南工业职业技术学院单招数学试题 .pdf VIP
- 2024-2025学年(统编版五四制)六年级语文下册第七单元知识清单.pdf VIP
- 粉尘爆 炸危险场所用收尘器防爆导则(doc5).doc VIP
- 拳皇97附带图片绝对完美键盘出招表.pdf
文档评论(0)