- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
跟踪——学习——检测
摘要:本文主要讨论研究视频流中的目标物体的长时间跟踪问题 在一幅单独的图像帧中,
目标物体是由其位置和自身特征所表征的 在连续的视频帧中,我们的任务就是确定出目标
物体的位置和其特征,或者是能够指出目标丢失或遮挡 我们提出了一个全新的跟踪框架
(TLD) 该框架将目标的长时间的跟踪任务清晰地分解成三个部分,跟踪,学习和检测
跟踪器在一帧帧的视频帧中跟踪目标 检测器是将已经检测到的特征 (表征目标物体)进行
局部化处理,并且根据需要不断修正跟踪器 学习器估计出检测器的错误,并及时更新检测
器,以避免后续再出现这些错误 我们研究了怎样来识别出或检测出检测器的错误,并且从
中进行学习训练 我们开创了一种全新的学习方法 (P-N 学习,Positive 和Negative),这种
方法通过一对约束来估计出错误 正约束可以检测出是否丢失,负约束可以检测出错误的警
告 整个学习过程可以被看作是一个独立的离散的动态过程模型,并且在该过程模型下我们
能够发现学习器所能够带来的效果提升 在这篇文章中,我们详细阐述了TLD 框架和PN
学习的具体实现流程,并通过了大量的测试,结果表明这是一个尖端技术的具有重大意义的
改进
关键词:长期跟踪;视频帧学习;自引导 (自适应);实时;半监督学习;
1. 引言
对于一个手持摄像设备录制的视频流中,会有各种各样的移动的物体,物体有时候会从
录像视野出现,有时候又会消失 给定一幅感兴趣的视频帧,用带边框的矩形框来标定目标
物体,我们的目的就是能够自动地确定出这个带边框的矩形框或者能够确定出目标物体在接
下来的视频帧中是否丢失不可见了 视频流能够以帧速率来处理,并且整个处理过程能够运
行得足够长 我们把这个任务称作是长时间跟踪,又或者是长期跟踪
为了能够实现长期跟踪,我们有很多的问题需要解决 首先,最关键的问题就是目标物
体的重新检测,即当目标消失于录像视野后,再重新出现的时候,能否对丢失的目标进行检
测 而且,有时候目标发生了变化,比如说外观形变等,以致使与最开始的目标外在特征不
相关,在这种情况下,会让问题变得更加复杂和严峻 接下来第二个问题就是,一个比较好
的,成功的长期跟踪是能够处理缩放以及光照变化,复杂背景,部分遮挡等问题的,并且能
够达到实时效果
长期跟踪或许可以通过跟踪或者检测的角度来实现 跟踪算法来估计出目标的移动 跟
踪器紧紧只需要初始化,速度快,还能够获得目标的光滑的运动轨迹 但是,另一方面,跟
1
踪器会有误差并且在漂移过程中会不断累积跟踪误差 (致使最后的跟踪精度越来越差),而
且,如果目标物体从视野中消失,则跟踪会很容易就失败 我们队跟踪进行研究的目的是希
望开创出逐渐稳定,逐渐精确 (即鲁棒性逐渐提高)的跟踪器,以此来实现跟踪的时间更长
久 目标丢失或者跟踪丢失的问题并不是很直接地就能够得到处理 基于检测的算法可以在
每一幅视频帧中独立地估计出目标 如果目标从录像视野中消失,检测器并不会发生漂移也
不会像跟踪失败那样的问题 然而,这种单纯的基于检测的算法需要事先的离线的训练过程,
由此,这种方法不能够应用于对未知物体的检测跟踪
我们的研究的出发点就是接受这样的一个事实:单纯的跟踪或者单纯的检测都不能解决
长期跟踪任务 所以,我们想,如果他们能够同时一起运作,或许就很有可能相互借鉴,相
互促进,就有可能实现鲁棒性较高的长期跟踪 一个跟踪器能够为检测器提供训练数据,并
由此在后续中来提升自身的跟踪效果 一个检测器能够重新初始化跟踪器一次能将跟踪失败
的情况减少到最小化
本论文最重要的一个贡献就是提出了全新的TLD 架构 TLD 将长期跟踪任务分解成三
个子任务:跟踪,学习和检测 每个子任务有单独部件处理,然后所有部件在同时一起运行
跟踪器可以一帧帧的进行不断的跟踪 检测器将已经检测出的目标物体进行局部化处理,并
根据需要修正跟踪器的错误 学习器估计出检测器的错误,并及时更新检测器以避免后续再
出现这些错误
然而,对于一个大范围的或者长时间的跟踪器和检测器来说,我们并不清楚哪一种学习
方法适合这个TLD 架构 但是我们比较清楚的是,这种学习方法能够:
(1)极其复杂的视频,比如跟踪失败的情况经常发生的视频,目标经常丢失的视频;
(2)如果前后的视频帧中没有包含很相关的信息,比如说目标物体发生了严重形变,检测
器的效果也从不会被弱化;
(3)实时运作;
为了能够综合处理这些所有的
文档评论(0)