- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重庆大学硕士学位论文 中文摘要
摘 要
随着现代信息技术的跨越式发展,人们的生活方式逐渐向数字化、网络化、
智能化进行转变,用户通过手机、平板、电脑等设备在互联网上传播大量图片,
使得图像成为线上信息流通的重要载体。这些图片包含大量自然场景中的图像,
面对这些宝贵的图像数据资源,人们希望计算机能够自动分析并理解自然场景下
的图像,对其进行有意义的刻画与描述。针对自然场景下的图像语义描述在智能
化标注、人机交互、助残服务以及教育领域都具有广阔的应用需求,现如今逐渐
成为国内外众多学者和科研机构共同致力的一个研究热点。图像语义描述的本质
是让计算机能够对给定图像中的物体进行准确的检测与识别,结合场景信息对图
片内容进行理解,最终给出人类能够理解的语言描述。相较于图像分类、图像检
测、图像分割等领域,图像语义描述涉及到图像处理与语言建模,因此需要将计
算机视觉与自然语言处理两大领域有机统一起来。本文主要工作包含以下内容:
本文从机器翻译领域引入“编码器-解码器”框架,构造一个端到端的图像语
义描述模型,利用编码器完成特征提取任务,同时利用解码器完成语句描述任务。
由于近年来卷积神经网络在图像处理的特征提取能力已得到验证,因此本文设计
并构造了一种精细的卷积神经网络模块,使得编码器能够从图像提取出表达能力
强的视觉特征。在此基础上引入带注意力机制的基于长短时记忆模型的解码器,
使得图像语义描述模型能够有选择地关注特定区域并生成对应单词。
基于深度模型的“编码器-解码器”图像语义描述模型能够较好地完成给定任
务,然而深度模型普遍具有庞大的规模,其高昂的时间复杂度和空间复杂度制约
其在更广阔领域的实施与应用。本文针对“编码器-解码器”的基础组成部分,研
究了一种基于网络剪枝与张量分解的混合优化方法,旨在从时间与空间两个维度
降低模型的复杂度。首先采用数据驱动的全局监督迭代方法对卷积层进行张量分
解,然后根据本文提出的重要度评价标准对卷积核和神经元进行排序,最后将相
对不重要的卷积核或神经元从网络剪枝。
最后,本文在MS COCO、Flickr 30k 等公开数据集对所提出方法进行了评测,
实验结果表明上述方法能够快速、准确地对给定图像进行理解,并且能给出符合
人类习惯且具有逻辑的语句描述,与同类方法之间的对比分析也证明了本文提出
方法的有效性。针对本文模型进行了优化实验分析,实验结果表明所研究方法能
够有效降低深度模型的时间复杂度和空间复杂度。
关键词:图像语义描述;深度模型;卷积神经网络;长短时记忆模型;模型优化
I
重庆大学硕士学位论文 英文摘要
Abstract
With the tremendous development of modern information technology, peoples
life style gradually become digital, cyber and intelligent. Users spread large number of
pictures on the Internet through mobile phones, pad, computers and other devices,
making pictures an important carrier for online information circulation. These images
contain large number of instances in natural scenes. Faced with these valuable image
data resources, people hope that computers can automatically analyze and understand
the images in natural s
文档评论(0)