- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
摘要
图像描述生成(ImageCaptioning)是计算机视觉领域的一个焦点问题,它要
求计算机理解视觉数据的语义信息。此任务需要计算机先理解图像的内容,然后
用一句简短的话概括出来,我们称这句话为图像的描述语句。它比图片分类等传
统计算机视觉任务更具难度,是一个具有更高抽象度和复杂度的计算机视觉任务。
图像分类等任务的标签过于粗糙,往往一整张图只选中心最明显的那个物体作为
图像的标签,而其他信息都被忽略掉了。而图像描述生成任务的标签是包含图像
中场景,物体交互等信息的语句,具有丰富的语义信息,更为具体的描述了图片
的内容,从而使计算机的理解难度更大。
多亏了近年来深度学习的大力发展,卷积神经网络的成功应用使得图片内容
理解相关任务取得了极大的进步。通过卷积神经网络,图片可以被抽象为一些特
征矩阵或者特征向量,图像所包含的原始信息也会极大程度的保留在这些矩阵或
者向量中。这些抽象程度更高的特征可以捕捉到更多图像中那些与图像标签相关
的内容。所以在图像描述生成任务中,为了使计算机先理解图像的内容,研究者
们往往会采用卷积神经网络提炼图像中包含的信息。在提炼图像内容的基础上,
还需要生成语句描述。这就要依靠具有强大文本生成能力的长短期记忆网络了,
它可以根据抽象的图像特征,序列化地生成内容相关的描述语句,就将捕捉到的
语义信息用我们能够理解的方式表达了出来。这就是图像描述生成领域最常用的
编码-解码模型。
尽管最近的编码-解码模型已经达到了令人满意的性能,但是它们仅利用来自
标准数据集的数据。除开标准数据集,互联网上仍然有大量的没有标注的数据无
法被充分利用。在本文中,我提出了一种使用外部图像和文本来增强图像描述生
成模型性能的新颖方法。本文的方法可以分别利用从互联网上抓取的图像数据和
文本数据来提升受限于标准数据集的算法性能。本文的方法可以将从网络数据中
学到的知识迁移到标准数据集中。我在MSCOCO和Flickr30K数据集进行了实验,
结果证明了该方法的有效性。在这两个数据集上,与其他一些具有代表性的方法
相比,评价指标得分有了较明显的提升。
关键词:图像描述生成,视觉数据,语义理解,计算机视觉,深度学习
I
ABSTRACT
ABSTRACT
ImageCaptioningisafocalissueinthefieldofcomputervision.Itrequiresthe
computertounderstandthesemanticinformationofthevisualdata.thecomputerneeds
tounderstandthecontentoftheimagefirst,andthensummarizesitinashortsentence,
wecallthissentenceasimagecaption.Imagecaptioningismoredifficultthan
traditionalcomputervisiontaskssuchasimageclassification.Itisataskwithahigher
levelofabstractionandcomplexity.Inimageclassification,foranentireimage,onlythe
mostobviousobjectisselectedasthelabelfortheimage,andotherinformationis
ignored.Thelabeloftheimagecaptioningtaskisasentencethatcanmorespecifically
describeth
文档评论(0)