网站大量收购闲置独家精品文档,联系QQ:2885784924

基于关键点视觉检测技术的动作识别研究.pdf

基于关键点视觉检测技术的动作识别研究.pdf

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于关键点视觉检测技术的动作识别研究

摘要

动作识别是计算机视觉和人工智能领域的重要研究方向,旨在从图像或视频数据中自

动识别和理解特定的动作或行为。在这个领域中,人体的动作识别是一个具有挑战性且极

具应用前景的研究热点。通过分析人体在不同场景下的姿态和动作可以实现对人类行为的

智能监测、行为识别和健康管理等多种应用。

由于骨骼关键点序列表征了人体动作的时空信息,基于该数据的动作识别方案受到了

广泛关注,当前的国内外的研究都集中在图卷积网络(GCN)。GCN能够根据图结构学习

到不同关键点之间的时空关系,从而提高动作识别的准确性;但是其对于图结构的手工设

计降低了鲁棒性,且构建和处理时空图需要花费更多的计算资源。区别于图卷积网络,本

文的解决方案是将关键点热图序列进行沿时间轴的堆叠从而表示动作的变化,通过构建3D

CNN与3DTransformer的混合模型进行动作识别,以提升识别性能。本文的主要研究内容

和结果如下:

(1)构建高性能的CCDN-DETR人体目标检测模型。在端到端的目标检测框架DETR

的基础上,引入跨尺度编码器以促进在不同尺度上的综合信息建模和融合,达到适应不同

人体目标的多尺度特性;优化解码器输入层的查询选择方案,采用IOU损失函数来更有效

地初始化目标查询;在解码器层引入限制对比去噪训练,以提高模型的收敛速度及不同背

景环境下的人体目标的检测精度。

(2)针对获取人体关键点坐标时出现的遮挡、环境背景变化等影响精度的问题,本文

提出一种MDW-HRNet算法实现高效率的人体姿态估计。该算法通过引入上下文信息建模

和跨通道动态卷积等新模块,实现了对输入张量各维度的像素级加权,保证了坐标定位效

率。其中上下文信息建模模块分为通道分支和空间分支,在维持高分辨率特征的同时减小

信息压缩;跨通道动态卷积采用一维卷积来增强信息交互,从而提高人体姿势估计的性能。

在COCOVal基准中,MDW-HRNet以1.8M的参数量达到72.9AP的性能,实现精度与效

率的平衡。

(3)基于3DCNN与3DTransformer,建立混合模型PCT3D进行人体动作识别。

PCT3D的输入来自于MDW-HRNet预测的2D关键点,该数据被转化为沿时间轴堆叠的热

图序列以充分表示动作的变化过程,之后PCT3D在热图序列基础上采用3D混合模型用于

动作识别。另外,由于现有的动作识别方法通常只考虑姿态数据或RGB数据,忽视了两者

之间的关联互补,且现有的骨骼动作识别网络无法获取背景像素所代表的上下文特征,本

文在PCT3D模型的基础上引入RGB模态的特征进行优化,组成双模态RGB_PCT3D模型

进行动作识别。实验结果表明,PCT3D模型以约ST-GCN模型16.1%的参数量,在NTU

RGB+D数据的XSub以及XView子集中分别达到了92.1%以及96.3%的Top1分数,在

Kinetics400数据集中达到了37.6%的Top1分数;双模态RGB_PCT3D网络在NTURGB+D

数据的XSub基准中达到95.2%的准确度。

(4)真实场景的动作识别验证。在上述工作的基础上,通过收集一系列真实场景中的

动作视频数据,用于对PCT3D的性能进行进一步测试验证。测试数据共125个视频,包

括单人动作坐下、鼓掌、脱外套、跳跃、跌倒,以及多人动作分开走、拥抱、推。实验结

果表明:PCT3D的识别准确率达到了72.8%,优于ST-GCN的18.4%和MS-G3D的72%;

PCT3D在处理遮挡或者关键点信息缺失的情况下表现出色,能够准确识别动作类型,但对

于存在噪声的非标准动作的识别效果有待进一步改进。

关键词:3DCNN;3DTransformer;目标检测;人体姿态估计;双模态动作识别

ResearchonActionRecognitionBasedonKeypoint

VisualDetectionTechnology

Abstract

Actionrecognitionisasignificantresearchdirectionin

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档