网站大量收购独家精品文档,联系QQ:2885784924

从数据挖掘到深度学习精要.pptx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从数据挖掘到深度学习精要

从数据挖掘到深度学习 ——大数据建模分析的算法和应用概述 刘豫 2016-3-25 提纲 概述 大数据建模分析算法和应用 数据挖掘算法简介 深度学习算法简介 大数据分析工具 关于网管大数据分析的思考 实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速…… 大数据建模分析的理论和方法 2017-4-8 如果数据是21世纪最宝贵的财富,大数据分析就是当今最伟大的炼金术,可以从前所未有的大规模数据中发现前所未知的知识,实现不可限量的价值。 大数据分析依赖的理论和方法主要包括传统的统计学、机器学习、数据挖掘,以及近10年来逐渐发展成熟的深度学习。 统计学 机器学习 数据挖掘 深度学习 提供特征和模型 重要的发展分支 提供数据分析 技术基础 实现对海量数据的明确可预期的分析能力 算法可解析,物理意义清晰 实现对海量数据的超越预期的分析能力 算法多为启发式的,难以分析和理解 人工学习特征 人工学习规律 人工学习特征 自动学习规律 自动学习特征 自动学习规律 关于特征、规律和学习 2017-4-8 大数据建模分析的本质是通过构建数学模型,从数据中学习特征和规律,收获有用的知识。 特征:决定数据对象所蕴含的知识的关键属性 规律:将特征的表达为目标知识的一种模式,及其参数 学习:从样本数据集计算得到规律的过程 大数据建模分析的基本流程 关于学习 2017-4-8 学习能力是大数据分析建模的关键技术之一。根据反馈的不同,学习技术可以分为监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning)和强化学习(Reinforcement learning)四大类。 使用有标签数据进行学习 典型场景:分类、回归 监督学习(Supervised learning) 使用无标签数据进行学习 典型场景:聚类 非监督学习(Unsupervised learning) 使用数据的一部分是有标签的,另一部分没有标签,无标签数据的数量有标签数据数量 典型场景:海量数据分类 半监督学习(Semi-supervised learning) 使用无标签但有反馈的数据进行学习 典型场景:策略推理 强化学习(Reinforcement learning) 半监督(Semi-supervised) 学习案例 步骤一: 用带有标识的图片训练分类器 步骤二: 对没有标识的数据进行分类,并按照信任度从大到小进行排序 步骤三: 将信任度最高的图片自动加入标识项 步骤四: 重新训练分类器并重复步骤二~步骤四 图片分类案例:从图库中识别出“日蚀”图片。当图库巨大时,人工标注耗时耗力。 提纲 概述 大数据建模分析算法和应用 数据挖掘算法简介 深度学习算法简介 大数据分析工具 关于网管大数据分析的思考 数据挖掘的概念和历史 1960s 1970s and 80s 1990s 2000s-- Data Collection Database Creation Relational Data Model RDBMS Data Mining Data Warehouse Multimedia Database Web Database Stream data management and mining Web technology (XML, data integration) SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法” Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程” Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程” Jiawei Han(韩家炜)(2000):从海量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程 --《数据挖掘:概念与技术》 数据挖掘定义的发展 数据挖掘(Data Mining)一词是在1989年8月召开的第十一届国际联合人工智能学术会议(JCAI’89)上正式形成的,其根源可追溯到经典统计学、人工智能、机器学习三个学科,关系型数据库、互联网的广泛应用两次推动了数据挖掘技术的发展。 9 主要的数据挖掘算法 广义型知识 反映同类事物共同性质的知识 特征型知识 反映事物各方面的特征知识 差异型知识 反映不同事物之间属性差别的知识 关联型知识 反映事物之间依赖或关联的知识 预测型知识 根据历史和当前数据推测未来数据 偏离型知识 揭示事物偏离常规的异常现象 分类 按照分析对象的属性、特征,建立不同的组类来

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档