- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
华中科技大学硕士学位论文
摘要
近年来,互联网中图像、文字、视频、音频等多媒体数据的爆炸式增长,给传
统深度学习和数据检索技术带来了新的挑战。其中,视频数据作为联系多种数据模
态的重要纽带,具有很高的研究价值。本文围绕跨模态时域视频定位任务开展研究,
这是一项结合了视频和文本的多模态深度学习任务,其目的是根据自然语言查询从
视频中定位出与其语义一致的目标片段。这一任务有助于对网络中多种形式的海量
视频数据的高效检索和深入分析,在提高社会生产效率、保障网络安全和社会安全
等方面具有重要的现实意义。
由于原始视频往往过长,现有方案会首先通过稀疏采样从原视频中抽取固定数
目的视频帧,重构一个长度较短的视频,然后再将其与查询语句进行多模态交互来
推断答案。然而,这一过程会给模型引入两类偏差:(1)边界偏差:目标视频片段
表示为位于开始和结束时间点的两个边界帧,而视频稀疏采样过程可能会导致这两
个关键边界帧的丢失,并且将相邻的无关帧作为新的边界;此外,在生成新的边界
标签以及将预测结果转换回原始视频的过程中,需要通过舍入操作获取边界帧的整
数索引,这会进一步加剧边界偏差;(2)推理偏差:这种错误的新边界帧和不准确
的标签/预测转换过程会导致视频与查询的多模态交互过程中的错误对齐,引起模型
的推理偏差。
上述两种偏差会损害模型的鲁棒性和泛化能力,不仅降低模型的预测性能,还
会给模型的安全性带来潜在隐患。为了解决这一问题,本研究提出了一种针对跨模
态时域视频定位任务的孪生采样与推理方法(SiameseSamplingandReasoning
Network,SSRN),通过一种新型的孪生采样与推理策略在下采样视频帧附近抽取额
外的上下文视频帧,并进一步学习这些采样帧之间的相关性,从而对新边界帧的语
义信息进行丰富和细化,最终利用带浮点值的边界软标签实现更精确的目标片段预
测。这一方法还能够补充所有稀疏的下采样帧中缺失的连续性视觉语义,从而帮助
模型实现细粒度的视频理解。
I
华中科技大学硕士学位论文
本文在三个具有挑战性的数据集上开展了丰富的实验,实验结果表明SSRN在
三个数据集的每一个评价指标上都达到了最优表现,且SSRN在具有对比方案平均
水平的参数量的基础上,实现了更快的处理速度,从而具有更好的落地应用潜力;
相应的消融实验结果和可视化分析也证明了SSRN中每个模块的有效性和可解释性。
关键词:多模态深度学习;跨模态时域视频定位;孪生学习;语义增强;网络内容
安全;模型鲁棒性
II
华中科技大学硕士学位论文
Abstract
Inrecentyears,theexplosivegrowthofmultimediadatasuchasimage,text,video,
andaudioontheInternethasbroughtnewchallengestotraditionaldeeplearninganddata
retrievaltechnologies.Amongthem,videodata,asanimportantlinkconnectingmultiple
datamodalities,isavaluableresearchtopic.Thepaperfocusesontheresearchoftemporal
sentencegrounding(TSG),whichisamultimodaldeeplearningtaskthatcombinesvideo
andtext,aimingtoidentifythetemporalboundaryofaspecificsegmentfroman
untrimmedvideobyasenten
您可能关注的文档
- 高频光致超声换能器及血管内超声成像应用研究.pdf
- 高频绝缘芯变压器热网络建模与冷却系统设计优化.pdf
- 高斯MAC上的CEO问题编码性能分析及其在联邦学习中的应用.pdf
- 高速、重载、大行程升降平台设计及实现.pdf
- 高噪声光信号传输的均衡技术研究.pdf
- 个人资本所得课税法律问题研究.pdf
- 共递送双DNA损伤修复抑制剂以增强胰腺癌对不可逆电穿孔治疗响应的机制研究.pdf
- 固态硬盘公平性事务处理方法研究.pdf
- 光电振荡器的建模与链路设计.pdf
- 光纤中前向受激布里渊效应调控及应用.pdf
- 建银国际证券-港股熊牛切换走向深化:新质生产力助力打开港股长期上升空间.pdf
- 国金证券-创业板50择时跟踪:2月进一步提升创业板50看涨比例.pdf
- 信用|关注存单和城投下沉的机会.pdf
- 政策半月观:三大方向进一步受重视.pdf
- 固定收益专题报告:建筑行业信用风险及投资价值全梳理.pdf
- AI行业跟踪报告第58期:华勤技术,AI云、端全线卡位,全面受益于AI落地.pdf
- 高频选股因子:大单因子表现继续反弹,AI增强组合持续回撤.pdf
- 投资策略研究*专题报告:科技引领“中国资产”价值重估进度加快.pdf
- 电子行业:高阶智驾加速普及,催动硬件快速放量.pdf
- 浙商证券-北汽蓝谷-600733-北汽蓝谷深度报告:联袂小马打造无人出租,携手华为进军全民智驾.pdf
文档评论(0)