- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从数据挖掘到深度学习精要
从数据挖掘到深度学习——大数据建模分析的算法和应用概述
刘豫
2016-3-25
提纲
概述
大数据建模分析算法和应用
数据挖掘算法简介
深度学习算法简介
大数据分析工具
关于网管大数据分析的思考
实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速……
大数据建模分析的理论和方法
2017-4-8
如果数据是21世纪最宝贵的财富,大数据分析就是当今最伟大的炼金术,可以从前所未有的大规模数据中发现前所未知的知识,实现不可限量的价值。
大数据分析依赖的理论和方法主要包括传统的统计学、机器学习、数据挖掘,以及近10年来逐渐发展成熟的深度学习。
统计学
机器学习
数据挖掘
深度学习
提供特征和模型
重要的发展分支
提供数据分析
技术基础
实现对海量数据的明确可预期的分析能力
算法可解析,物理意义清晰
实现对海量数据的超越预期的分析能力
算法多为启发式的,难以分析和理解
人工学习特征
人工学习规律
人工学习特征
自动学习规律
自动学习特征
自动学习规律
关于特征、规律和学习
2017-4-8
大数据建模分析的本质是通过构建数学模型,从数据中学习特征和规律,收获有用的知识。
特征:决定数据对象所蕴含的知识的关键属性
规律:将特征的表达为目标知识的一种模式,及其参数
学习:从样本数据集计算得到规律的过程
大数据建模分析的基本流程
关于学习
2017-4-8
学习能力是大数据分析建模的关键技术之一。根据反馈的不同,学习技术可以分为监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning)和强化学习(Reinforcement learning)四大类。
使用有标签数据进行学习
典型场景:分类、回归
监督学习(Supervised learning)
使用无标签数据进行学习
典型场景:聚类
非监督学习(Unsupervised learning)
使用数据的一部分是有标签的,另一部分没有标签,无标签数据的数量有标签数据数量
典型场景:海量数据分类
半监督学习(Semi-supervised learning)
使用无标签但有反馈的数据进行学习
典型场景:策略推理
强化学习(Reinforcement learning)
半监督(Semi-supervised) 学习案例
步骤一: 用带有标识的图片训练分类器
步骤二: 对没有标识的数据进行分类,并按照信任度从大到小进行排序
步骤三: 将信任度最高的图片自动加入标识项
步骤四: 重新训练分类器并重复步骤二~步骤四
图片分类案例:从图库中识别出“日蚀”图片。当图库巨大时,人工标注耗时耗力。
提纲
概述
大数据建模分析算法和应用
数据挖掘算法简介
深度学习算法简介
大数据分析工具
关于网管大数据分析的思考
数据挖掘的概念和历史
1960s
1970s and 80s
1990s
2000s--
Data Collection
Database Creation
Relational Data Model
RDBMS
Data Mining
Data Warehouse
Multimedia Database
Web Database
Stream data management and mining
Web technology (XML, data integration)
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”
Jiawei Han(韩家炜)(2000):从海量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程 --《数据挖掘:概念与技术》
数据挖掘定义的发展
数据挖掘(Data Mining)一词是在1989年8月召开的第十一届国际联合人工智能学术会议(JCAI’89)上正式形成的,其根源可追溯到经典统计学、人工智能、机器学习三个学科,关系型数据库、互联网的广泛应用两次推动了数据挖掘技术的发展。
9
主要的数据挖掘算法
广义型知识
反映同类事物共同性质的知识
特征型知识
反映事物各方面的特征知识
差异型知识
反映不同事物之间属性差别的知识
关联型知识
反映事物之间依赖或关联的知识
预测型知识
根据历史和当前数据推测未来数据
偏离型知识
揭示事物偏离常规的异常现象
分类
按照分析对象的属性、特征,建立不同的组类来
您可能关注的文档
- 半导体照明技术:第三、四章半导体发光材料晶体导论半导体的激发与发光讲述.ppt
- 3V化25Hz相敏轨道电路的维护调整讲解.doc
- 3word试题讲解.doc
- 升降设备工程品质管理实务讲述.pptx
- 从地球仪上看世界(上课)精要.ppt
- 从不同位置观察物体2精要.ppt
- 从传统到现代精要.ppt
- 半导体物理_第七章_金属和半导体的接触讲述.ppt
- 半导体物理学-chap4讲述.ppt
- 半导体物理复习资料讲述.docx
- 4.1 陆地水体及其关系 课件高二上学期地理中图版(2019)选择性必修一.pptx
- 混凝土结构与砌体结构设计习题集 .pdf
- 统编版语文四年级下册 22.古诗三首 课件(共50张PPT).pptx
- 青海2024行测笔试真题及答案 .pdf
- 2.1 充分发挥市场在资源配置中的决定性作用 课件-高中政治统编版必修二经济与社会.pptx
- 27.巨人的花园 课件(共58张PPT).pptx
- 统编版语文一年级下册5 树和喜鹊 第1课时 课件(共37张PPT).pptx
- 2.1 充分发挥市场在资源配置中的决定性作用 课件政治一轮复习统编版必修二经济与社会.pptx
- 贵港市平南县2024届小升初考试语文试卷含答案 .pdf
- 小学期末考试质量分析 .pdf
文档评论(0)