网站大量收购独家精品文档,联系QQ:2885784924

基于孪生采样与推理的跨模态时域视频定位方法研究.pdf

基于孪生采样与推理的跨模态时域视频定位方法研究.pdf

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

华中科技大学硕士学位论文

摘要

近年来,互联网中图像、文字、视频、音频等多媒体数据的爆炸式增长,给传

统深度学习和数据检索技术带来了新的挑战。其中,视频数据作为联系多种数据模

态的重要纽带,具有很高的研究价值。本文围绕跨模态时域视频定位任务开展研究,

这是一项结合了视频和文本的多模态深度学习任务,其目的是根据自然语言查询从

视频中定位出与其语义一致的目标片段。这一任务有助于对网络中多种形式的海量

视频数据的高效检索和深入分析,在提高社会生产效率、保障网络安全和社会安全

等方面具有重要的现实意义。

由于原始视频往往过长,现有方案会首先通过稀疏采样从原视频中抽取固定数

目的视频帧,重构一个长度较短的视频,然后再将其与查询语句进行多模态交互来

推断答案。然而,这一过程会给模型引入两类偏差:(1)边界偏差:目标视频片段

表示为位于开始和结束时间点的两个边界帧,而视频稀疏采样过程可能会导致这两

个关键边界帧的丢失,并且将相邻的无关帧作为新的边界;此外,在生成新的边界

标签以及将预测结果转换回原始视频的过程中,需要通过舍入操作获取边界帧的整

数索引,这会进一步加剧边界偏差;(2)推理偏差:这种错误的新边界帧和不准确

的标签/预测转换过程会导致视频与查询的多模态交互过程中的错误对齐,引起模型

的推理偏差。

上述两种偏差会损害模型的鲁棒性和泛化能力,不仅降低模型的预测性能,还

会给模型的安全性带来潜在隐患。为了解决这一问题,本研究提出了一种针对跨模

态时域视频定位任务的孪生采样与推理方法(SiameseSamplingandReasoning

Network,SSRN),通过一种新型的孪生采样与推理策略在下采样视频帧附近抽取额

外的上下文视频帧,并进一步学习这些采样帧之间的相关性,从而对新边界帧的语

义信息进行丰富和细化,最终利用带浮点值的边界软标签实现更精确的目标片段预

测。这一方法还能够补充所有稀疏的下采样帧中缺失的连续性视觉语义,从而帮助

模型实现细粒度的视频理解。

I

华中科技大学硕士学位论文

本文在三个具有挑战性的数据集上开展了丰富的实验,实验结果表明SSRN在

三个数据集的每一个评价指标上都达到了最优表现,且SSRN在具有对比方案平均

水平的参数量的基础上,实现了更快的处理速度,从而具有更好的落地应用潜力;

相应的消融实验结果和可视化分析也证明了SSRN中每个模块的有效性和可解释性。

关键词:多模态深度学习;跨模态时域视频定位;孪生学习;语义增强;网络内容

安全;模型鲁棒性

II

华中科技大学硕士学位论文

Abstract

Inrecentyears,theexplosivegrowthofmultimediadatasuchasimage,text,video,

andaudioontheInternethasbroughtnewchallengestotraditionaldeeplearninganddata

retrievaltechnologies.Amongthem,videodata,asanimportantlinkconnectingmultiple

datamodalities,isavaluableresearchtopic.Thepaperfocusesontheresearchoftemporal

sentencegrounding(TSG),whichisamultimodaldeeplearningtaskthatcombinesvideo

andtext,aimingtoidentifythetemporalboundaryofaspecificsegmentfroman

untrimmedvideobyasenten

您可能关注的文档

文档评论(0)

dongbuzhihui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档