- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习及其视觉应用
丁贵广,Guiguang Ding
清华大学软件学院
dinggg@tsinghua.edu.cn
深度学习及视觉应用
深度学习概述
视觉应用
深度学习
神经网络是多层函数嵌套形成的模型
受到生物神经机制的启发构建多隐层的模型
深度学习
本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型”是手段,“特征学习”是目的。
与浅层学习区别:
1)强调了模型结构的深度,通常有5-10多层的隐层节点;
2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
深度学习的里程碑
2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在《科学》上发表论文提出深度学习主要观点:
1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,逐层初始化可通过无监督学习实现的。
Deep Learning的效果
CNN
卷积神经网络(Convolutional Neural Networks, CNN)
深度学习的具体模型及方法
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
局部感受
权值共享
减少参数的方法:
每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息。
每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
隐层神经元数量的确定
神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。
例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000 )/ (10x10)=10000个
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
多滤波器情形
不同的颜色表示不同种类的滤波器
每层隐层神经元的个数按滤波器种类的数量翻倍
每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关
例如:隐含层的每个神经元都连接10x10像素图像区域,同时有100种卷积核(滤波器)。则参数总个数为:(10x10+1)x100=10100个
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
CNN的关键技术:局部感受野、权值共享、时间或空间子采样
CNN的优点:
1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;
2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;
3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;
3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。
对象识别——CNN
5个卷积层和2个全连接层
每层卷积核个数96,256,384,384,256
监督学习——卷积神经网络
96个低级卷积核
监督学习——卷积神经网络
网络庞大,但容易收敛
唯一不需要特定初始化参数就可以训练成功
比较容易并行化训练,并且可以利用GPU加速
在计算机视觉(CV)领域取得成功
深度学习及视觉应用
深度学习概述
深度视觉应用
ClassificationDetectionSegmentation
Image Captioning Image Generator
Image Captioning
Image Generator
CNN Model
Convolutional Neural Network Based on Caffe Framework
Basic Model
ZFNet
VGGNet
GoogleNet
ResNet
DenseNet
SqueezeNet
Classification
Object Detection
模型:R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD等知名框架
精度:PASCAL VOC上的mAP,从R-CNN的53.3%,Fast RCNN的68.4%,Faster R-CNN的75.9%,Faster RCNN结合残差网(Resnet-101),达到83.8%
速度:从最初的RCNN模型,处理一张图片要用2秒多,到F
您可能关注的文档
- 七年级上第5课喜庆吉祥的民间艺术第二课时工美.ppt
- 七年级政治上道德与法治绪论课件.ppt
- 七田真扑克牌记忆编码训练右脑训练课件.ppt
- 气温对农业的影响闫娜.ppt
- 千姿百态的地表形态1好用.ppt
- 钳工工艺及技能训练说课.ppt
- 巧克力产品知识.ppt
- 巧克力爷爷和糖奶奶.ppt
- 切比雪夫不等式与大数定律.ppt
- 切尔诺贝利核事故--永远不能忘却的事故.ppt
- 2024年-人教版PEP英语五年级上册Unit 6 单元教案 1.doc
- 2024年-人教版语文八年级上册12《渡荆门送别》 同步练习1.doc
- 2024年-部编版五年级语文第二单元 达标检测卷.doc
- 2024年-教师工作手册-画室资料.docx
- 苏教版六年级数学上册全册课件—分数除以分数(共18张).pptx
- 2024年-人教版PEP英语五年级上册Unit 5 单元教案 1.doc
- 2024年-人教版PEP小学英语六年级下册Unit 2 教案(全)2.docx
- 2024年-人教版七年级英语上 期中测试卷.doc
- 2024年-人教版八年级数学上册14.1.4.1《单项式乘以单项式》同步训练习题.doc
- 【第九章1】如何表现四格漫画(四格漫画篇)—美术课件.pptx
文档评论(0)