融合多层次视觉信息的人物交互动作识别被引量：1

Human-Object Interaction Recognition Integrating Multi-level Visual Features

在线阅读下载PDF

导出

摘要基于计算机视觉的人体动作识别技术在视频监控、智能驾驶、人机交互、多媒体内容审核等领域均有着广阔的应用前景,其中人体动作中的人物交互是动作识别的核心内容之一。现有的人物交互动作识别模型对人物关系的提取仅仅停留在表层视觉特征之上,并未充分挖掘人体关键区域以及人物之间的深层语义关系。针对此问题,文中提出了层次化的图神经网络模型(HGNN)对人物交互动作建模。HGNN模型从局部到整体显式地对人体关键区域以及人和物构成的场景图进行建模,并利用注意力图池化机制(AttPool)剔除层次图中冗余的信息和噪声,再通过图卷积网络提取图结点之间的深层语义关系,对卷积网络提取的特征进行聚合与优化,从而得到反映人物交互动作本质的特征表示。另外,HGNN模型在中层图进行的临时监督分类也能够约束网络更好地学习到交互动作的人体模式,避免网络对交互对象产生“偏见”。最后,针对HGNN模型,设计了多任务损失函数,用于有效进行模型训练。为了验证HGNN模型的有效性,在公开的大型数据集V-COCO上进行了广泛的实验,结果均显示所提出的HGNN模型对常见的人物交互动作具有广泛的适应性和鲁棒性,精度(mAP)超过了现有的基于图神经网络的模型,同时领先于大部分最新的多流卷积模型。 Computer vision based human action recognition technique has a broad application in the fields of video surveillance,intelligent driving,human-computer interaction,multimedia content audit,etc.More importantly,human-object interaction is one of the core components in human action recognition.Most of the existing human-object interaction action recognition models,which are based on multi-stream convolutional neural networks,only capturing the visual features superficially.They fail to fully explore the key areas of human body and the deep semantic relationship between human and objects.To solve this problem,this paper proposes a hierarchical graph neural network(HGNN)model.HGNN explicitly models the critical areas of the human body and the interaction of human-object in the scene from local to global,and uses an attention pooling mechanism(AttPool)to eliminate redundant information and noise in the graph.Then,the deep semantic relationship between graph nodes are captured by the graph convolution network,and the initial features extracted by convolutional neural network are aggregated and optimized.In this way,the feature representation which reflects the essential character of human-object interaction can be obtained.In addition,the interim supervised classification in the middle graph can also constrain the model to better learn the human patterns of interactive actions,and avoid the model to produce“bias”on the interactive objects.Finally,a multi-task loss function is designed for the HGNN to effectively train the model.To test and verify the effectiveness of the proposed HGNN model,extensive experimental evaluations on the famous public benchmark V-COCO have been conducted.The results show that the proposed HGNN model is adaptive and robust for human-object interaction detection,which outperforms the previous graph neural network based methods by a large margin,and also performs better than most of the latest convolutional neural network based models.

作者李宝珍张晋王宝录余平 LI Bao-zhen;ZHANG Jin;WANG Bao-lu;YU Ping(Shendong Jinjie Colliery,Chn Energy,Shenmu,Shaanxi 719319,China;Chn Energy Network Infomation Technology(Beijing)CO.,LTD.,Beijing 100011,China)

机构地区国家能源集团神东锦界煤矿国能网信科技(北京)有限公司

出处《计算机科学》 CSCD 北大核心 2022年第S02期643-650,共8页 Computer Science

关键词计算机视觉人体动作识别人物交互深度学习图神经网络 Computer vision Human action recognition Human-Object interaction Deeplearning Graph neural network

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1唐超,王文剑,张琛,彭华,李伟.基于RGB-D图像特征的人体行为识别[J].模式识别与人工智能,2019,32(10):901-908. 被引量：9
2李兴,肖秦琨.基于自动编码器与概率神经网络的人体运动行为识别方法[J].软件导刊,2018,17(1):11-13. 被引量：2
3Jiaxu Zhang,Gaoxiang Ye,Zhigang Tu,Yongtao Qin,Qianqing Qin,Jinlu Zhang,Jun Liu.A spatial attentive and temporal dilated(SATD)GCN for skeleton-based action recognition[J].CAAI Transactions on Intelligence Technology,2022,7(1):46-55. 被引量：11

二级参考文献12

1段明秀,何迎生.基于LVQ神经网络的手写字母识别[J].吉首大学学报（自然科学版）,2010,31(2):41-43. 被引量：13
2后锐,张毕西.基于MLP神经网络的区域物流需求预测方法及其应用[J].系统工程理论与实践,2005,25(12):43-47. 被引量：87
3莫林,廖鹏,刘勋.一种基于背景减除与三帧差分的运动目标检测算法[J].微计算机信息,2009,25(12):274-276. 被引量：41
4贾楷熙,薛静.基于Zernike矩和BP网络的步态识别技术研究[J].西北工业大学学报,2010,28(5):669-673. 被引量：6
5孙倩茹,王文敏,刘宏.视频序列的人体运动描述方法综述[J].智能系统学报,2013,8(3):189-198. 被引量：5
6胡琼,秦磊,黄庆明.基于视觉的人体动作识别综述[J].计算机学报,2013,36(12):2512-2524. 被引量：123
7黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240. 被引量：197
8曲建岭,杜辰飞,邸亚洲,高峰,郭超然.深度自动编码器的研究与展望[J].计算机与现代化,2014(8):128-134. 被引量：41
9郭联金,罗炳军.PNN与BP神经网络在钢板表面缺陷分类中的应用研究[J].机电工程,2015,32(3):352-357. 被引量：13
10刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：33

共引文献19

1陈磊.人工智能在模式识别方面的应用[J].科技创新导报,2020,17(19):125-127. 被引量：2
2杨世强,杨江涛,李卓,王金华,李德信.基于LSTM神经网络的人体动作识别[J].图学学报,2021,42(2):174-181. 被引量：12
3郑丽.基于深度学习的运动训练姿态智能分析方法研究[J].电子设计工程,2021,29(10):167-171.
4周小静,陈俊洪,杨振国,刘文印.基于手势特征融合的操作动作识别[J].计算机工程与应用,2021,57(14):169-175.
5于燕山,郭鹏.基于改进坐标转换的人体运动轨迹识别方法[J].微型电脑应用,2021,37(7):111-115. 被引量：3
6张晓龙,王庆伟,李尚滨.基于强化学习的多模态场景人体危险行为识别方法[J].应用科学学报,2021,39(4):605-614. 被引量：11
7王松.基于时空图卷积网络改进的人体行为识别方法[J].楚雄师范学院学报,2022,37(3):91-100. 被引量：1
8范云峰.基于改进ICP算法的人体运动训练动作捕捉模型设计[J].九江学院学报（自然科学版）,2022,37(2):70-73. 被引量：2
9姚捃,郭志林,赵杰.基于人体属性分析的考场行为识别[J].科学技术与工程,2022,22(22):9721-9727. 被引量：1
10孙军,韩仕林.K2MP二维人体骨架关键点检测方法设计[J].机电产品开发与创新,2023,36(3):14-18.

同被引文献1

1吴伟,刘泽宇.基于图的人-物交互识别[J].计算机工程与应用,2021,57(3):175-181. 被引量：2

引证文献1

1管尹凡,努尔古丽·艾子木把,王慧玲.基于Transformer的人物交互检测综述[J].计算机科学与应用,2024,14(8):179-193.

1周珍玉,秦学.基于人物交互的学生课堂行为识别研究[J].软件工程与应用,2022,11(6):1191-1203.
2宋涛,杨鑫,马婧华,余晓毅.骨架自适应与关节增强图卷积网络的行为识别[J].华中科技大学学报（自然科学版）,2022,50(3):74-79. 被引量：2
3高猛,丁英强,辛华磊,陈恩庆.基于时空多残差图卷积的3D骨骼点动作识别[J].小型微型计算机系统,2022,43(12):2570-2574. 被引量：1
4沈睿婷,张雷.基于隐马尔可夫模型动作模仿建模研究[J].制造业自动化,2022,44(10):147-152.
5张昆令.立足“局部与整体观”构建学科知识体系[J].教学考试,2022(60):60-62.
6袁媛,陈明惠,柯舒婷,王腾,何龙喜,吕林杰,孙好,刘健南.基于集成卷积神经网络和Vit的眼底图像分类研究[J].中国激光,2022,49(20):102-110. 被引量：9
7匡文波,罗江.新媒体监管策略研究[J].新闻论坛,2022,36(5):7-8.
8沙浩,刘越,王涌天,卢晨光,赵梦泽.基于二维图像和三维几何约束神经网络的单目室内深度估计方法[J].光学学报,2022,42(19):39-49. 被引量：9

计算机科学

2022年第S02期

浏览历史

内容加载中请稍等...

融合多层次视觉信息的人物交互动作识别被引量：1

参考文献3

二级参考文献12

共引文献19

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合多层次视觉信息的人物交互动作识别 被引量：1

参考文献3

二级参考文献12

共引文献19

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合多层次视觉信息的人物交互动作识别被引量：1