- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
图像分类;;图像分类,即给定一幅输入图像,通过某种分类算法判断该图像所属的类别。
图像分类的划分方式十分多样,划分依据不同,分类结果就不同。
根据图像语义的不同可将图像分类为:对象分类、场景分类、事件分类、情感分类等。
图像分类的主要流程包括图像预处理、图像特征描述和提取、分类器的设计,如下图所示。
;预处理包括图像滤波和尺寸的归一化等操作,其目的是方便目标图像的后续处理。
特征描述是指对图像中凸显其内容特性或属性的概括性表述。
特征提取是指根据图像本身的特征,按照某种既定的图像分类方式选取合适的特征并进行有效的提取。
分类器就是按照所选取的特征来对目标图像进行分类的一种算法。;传统的图像分类算法的流程包括图像预处理、图像特征描述和提取、分类器的设计,性能的差异主要取决于特征提取及分类器两方面。
传统的图像分类算法所采用的特征为人工选取的,常用的图像特征有形状、纹理、颜色等底层视觉特征,还有尺度不变特征变换、局部二值模式、方向梯度直方图等局部不变特征等。
人工选取的特征虽然具有一定的普适性,但对不同的图像的针对性不强,并且在复杂场景的图像中,要寻找能准确描述目标图像的人工特征绝非易事。;早期的图像分类是通过对图像的文本标签进行分类的形式实现的,首先对每一幅图像进行标识和注释,通过处理图像的标识和注释文本来实现图像分类。
基于内容的图像分类出现在20世纪末,该图像分类算法学习图像的内容信息,即对图像特征进行提取,得到特征信息后,将特征和类别标签放入分类器中进行训练。训练完成后,可以通过训练好的分类器对没有标签的图像数据进行分类。因此基于内容的图像分类算法能够更加客观地描述图像数据。;2012年欣顿和他的学生克里热夫斯基提出的AlexNet卷积网络在ImageNet国际计算机视觉挑战赛中以远超第二名的成绩夺得冠军头衔,让所有人看到了深度卷积神经网络在图像特征提取和图像分类方面的巨大潜力。
AlexNet的结构为5个卷积层、3个最大池化层和3个全连接层串行连接。通过各个卷积层的运算处理,将输入图像映射到不同的??征空间中,从而获取不同的图像特征,而最大池化层则对卷积层输出的特征图进行降采样,实现特征图尺寸的压缩并获取语义特征,最后通过全连接层将降采样后的语义特征图转换为向量进行分类。
AlexNet的结构的最大特点就是将图像分类的特征提取和特征分类结合为一体,同时训练过程中不仅优化了特征分类过程,也优化了特征提取过程;不仅提高了精度,而且具备端到端的便利性。从此,深度学习所涉及的领域均呈现出了爆发式的成长。;基于卷积神经网络的图像分类流程如下图所示。
在图像分类的领域,深度学习中的卷积神经网络可谓大有用武之地。相较于传统的图像分类算法,基于卷积神经网络的算法不再需要手动地对目标图像进行特征描述和提取,而是通过神经网络自主地从训练样本中学习特征,并且这些特征与分类器关系紧密,很好地解决了手动提取特征和分类器选择的难题。;;基于卷积神经网络的图像分类算法已经连续多年获得了ImageNet国际计算机视觉挑战赛的榜首,其间产生了许多经典的卷积神经网络,如:
VGGNet
GoogLeNet
ResNet
DenseNet
通过对经典卷积神经网络的学习可以了解到近年来基于深度学习的图像分类算法面临的问题以及问题的解决方案。;VGGNet是英国牛津大学的视觉几何组在2014年提出的卷积神经网络模型。
该模型极力诠释了隐藏层增多对预测精度的提高有帮助,训练时间和AlexNet相比大大缩短,并在ImageNet数据集中达到了92.7%的“top5”测试精度,拿下了2014年ImageNet国际计算机视觉挑战赛的亚军。ImageNet数据集有超过1400万幅图像,共1000个类别。
VGGNet是继AlexNet后的一个隐藏层更多的深度卷积神经网络,根据网络权重层的层数,可以区分为VGG16(16个权重层)和VGG19(19个权重层)。;VGGNet的常用结构是VGG16,网络结构如下图所示。
图中的VGG16网络结构一共有22层,包括16个权重层(卷积层、全连接层),6个非权重层(池化层、Softmax激活层)。
;VGG16处理图像的过程如下:
(1)原始输入图像为224×224×3。第1、2层(卷积层)使用3×3的卷积核(滑动步长为1)进行卷积,填充方式为same(为保证卷积输出与输入的特征图大小一致,当卷积边界不够时补0),输出特征图的通道数为64,则输出特征图的维度为224×224×64,再通过ReLU激活和批标准化后经过2×2的最大值池化层(步长为2),输出尺寸为224÷2=112,即通过第3层(池化层)后输出特征图的维度为112×112×64。
(2)第4、5层(卷积层)使用的卷积核(滑动步长为1)进行卷积,填充方式为same,输出特
文档评论(0)