深度学习及其视觉应用.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习及其视觉应用 丁贵广,Guiguang Ding 清华大学软件学院 dinggg@tsinghua.edu.cn 深度学习及视觉应用 深度学习概述 视觉应用 深度学习 神经网络是多层函数嵌套形成的模型 受到生物神经机制的启发构建多隐层的模型 深度学习 本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型”是手段,“特征学习”是目的。 与浅层学习区别: 1)强调了模型结构的深度,通常有5-10多层的隐层节点; 2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。 深度学习的里程碑 2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在《科学》上发表论文提出深度学习主要观点: 1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类; 2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,逐层初始化可通过无监督学习实现的。 Deep Learning的效果 CNN 卷积神经网络(Convolutional Neural Networks, CNN) 深度学习的具体模型及方法 深度学习的具体模型及方法 卷积波尔兹曼机(Convolutional RBM) 局部感受 权值共享 减少参数的方法: 每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息。 每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。 深度学习的具体模型及方法 卷积波尔兹曼机(Convolutional RBM) 隐层神经元数量的确定 神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。 例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000 )/ (10x10)=10000个 深度学习的具体模型及方法 卷积波尔兹曼机(Convolutional RBM) 多滤波器情形 不同的颜色表示不同种类的滤波器 每层隐层神经元的个数按滤波器种类的数量翻倍 每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关 例如:隐含层的每个神经元都连接10x10像素图像区域,同时有100种卷积核(滤波器)。则参数总个数为:(10x10+1)x100=10100个 深度学习的具体模型及方法 卷积波尔兹曼机(Convolutional RBM) CNN的关键技术:局部感受野、权值共享、时间或空间子采样 CNN的优点: 1、避免了显式的特征抽取,而隐式地从训练数据中进行学习; 2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性; 3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性; 3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。 对象识别——CNN 5个卷积层和2个全连接层 每层卷积核个数96,256,384,384,256 监督学习——卷积神经网络 96个低级卷积核 监督学习——卷积神经网络 网络庞大,但容易收敛 唯一不需要特定初始化参数就可以训练成功 比较容易并行化训练,并且可以利用GPU加速 在计算机视觉(CV)领域取得成功 深度学习及视觉应用 深度学习概述 深度视觉应用 ClassificationDetectionSegmentation Image Captioning Image Generator Image Captioning Image Generator CNN Model Convolutional Neural Network Based on Caffe Framework Basic Model ZFNet VGGNet GoogleNet ResNet DenseNet SqueezeNet Classification Object Detection 模型:R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD等知名框架 精度:PASCAL VOC上的mAP,从R-CNN的53.3%,Fast RCNN的68.4%,Faster R-CNN的75.9%,Faster RCNN结合残差网(Resnet-101),达到83.8% 速度:从最初的RCNN模型,处理一张图片要用2秒多,到F

文档评论(0)

lxm + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档