基于多特征融合的深度视频自然语言描述方法被引量：6

Deep natural language description method for video based on multi-feature fusion

在线阅读下载PDF

导出

摘要针对计算机对视频进行自动标注和描述准确率不高的问题,提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征,进行特征的融合,使用融合的特征训练基于长短期记忆(LSTM)的自然语言描述模型。通过不同的特征组合训练多个自然语言描述模型,在测试时再进行后期融合,即先选择一个模型获取当前输入的多个可能的输出,再使用其他模型计算当前输出的概率,对这些输出的概率进行加权求和,取概率最高的作为输出。此方法中的特征融合的方法包括前期融合:特征的拼接、不同特征对齐加权求和;后期融合:不同特征模型输出的概率的加权融合,使用前期融合的特征对已生成的LSTM模型进行微调。在标准测试集MSVD上进行实验,结果表明:融合不同类型的特征方法能够获得更高评测分值的提升;相同类型的特征融合的评测结果不会高于单个特征的分值;使用特征对预训练好的模型进行微调的方法效果较差。其中使用前期融合与后期融合相结合的方法生成的视频自然语言描述得到的METEOR评测分值为0.302,比目前查到的最高值高1.34%,表明该方法可以提升视频自动描述的准确性。 Concerning the low accuracy of automatically labelling or describing videos by computers, a deep natural language description method for video based on multi-feature fusion was proposed. The spatial features, motion features and video features of video frame sequence were extracted and fused to train a Long-Short Term Memory（LSTM） based natural language description model. Several natural language description models were trained through the combination of different features from early fusion, then did a late fusion when testing. One of the models was selected to predict possible outputs under current inputs, and the probabilities of these outputs were recomputed with other models, then a weighted sum of these outputs was computed and the output with the highest probability was used as the next output. The feature fusion methods of the proposed method include early fusion such as feature concatenating, weighted summing of different features after alignment, and late fusion such as weighted fusion of outputs＇ probabilities of different models based on different features,finetuning generated LSTM model by early fused features. Comparison experimental results on Microsoft Video Description（MSVD） dataset indicate that the fusion of different kinds of features can promote the evaluation score, while the fusion of the same kind of features cannot get higher evaluation score than that of the best feature; however, finetuning pre-trained model with other features has poor effect. Among different combination of different features tested, the description generated by the method of combining early fusion and later fusion gets 0.302 of METEOR, which is 1.34% higher than the highest score that can be found, it means that the method is able to improve the accuracy of video automatic description.

作者梁锐朱清新廖淑娇牛新征

机构地区电子科技大学信息与软件工程学院电子科技大学计算机科学与工程学院

出处《计算机应用》 CSCD 北大核心 2017年第4期1179-1184,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61300192) 中央高校基本科研业务费专项资金资助项目(ZYGX2014J052)~~

关键词深度学习特征融合视频语义分析视频描述递归神经网络长短时记忆 deep learning feature fusion video semantic analysis video description recurrent neural network LongShort Term Memory（LSTM）

分类号 TP37 [自动化与计算机技术—计算机系统结构] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):2508-2515. 被引量：566

二级参考文献68

1LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
2HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.
3LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations [C]// ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 609-616.
4HUANG G B, LEE H, ERIK G. Learning hierarchical representations for face verification with convolutional deep belief networks [C]// CVPR '12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2518-2525.
5KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1106-1114.
6GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
7LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440.
8SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2015-11-04]. http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.
9SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-8.
10HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [EB/OL]. [2016-01-04]. https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.

共引文献562

1侯帅鹏,石英,华逸伦,苏涛.基于改进SSD的行人检测模型[J].武汉理工大学学报,2019,41(7):95-102. 被引量：1
2苟玉晓,江永全,杨燕,周冠禄,林凯.基于全卷积神经网络的公交专用道识别[J].计算机应用研究,2020,37(S01):406-407.
3杨颖.基于MobileNet-SSD的蝶类昆虫识别算法[J].智能计算机与应用,2021,11(4):156-158. 被引量：2
4雷慧静.卷积神经网络综述[J].中国科技纵横,2018,0(16):44-47. 被引量：1
5张玮,张华熊.基于卷积神经网络的纺织面料主成分分类[J].浙江理工大学学报（自然科学版）,2019,41(1):1-8. 被引量：7
6徐思,孙仁诚.结合聚类的半监督分类方法[J].青岛大学学报（自然科学版）,2018,31(4):49-53. 被引量：2
7李辉,钟平,戴玉静,吕东辉.基于深度学习的输电线路锈蚀检测方法的研究[J].电子测量技术,2018,41(22):54-59. 被引量：20
8曾平平,李林升.基于卷积神经网络的水果图像分类识别研究[J].机械设计与研究,2019,35(1):23-26. 被引量：40
9蒋承知,于起,叶文强,甘凇元.卷积神经网络算法的比较探究[J].电子技术与软件工程,2017(7):78-80. 被引量：7
10李春利,柳振东,惠康华.基于卷积神经网络的人脸识别研究[J].软件导刊,2017,16(5):186-188. 被引量：6

同被引文献39

1万源,李欢欢,吴克风,童恒庆.LBP和HOG的分层特征融合的人脸识别[J].计算机辅助设计与图形学学报,2015,27(4):640-650. 被引量：71
2王少彬,郝红卫.利用综合特征的图像检索及特征互补性研究[J].微计算机信息,2006(08S):177-179. 被引量：9
3相燕.Multi-modal face parts fusion based on Gabor feature for face recognition[J].High Technology Letters,2009,15(1):70-74. 被引量：1
4李建科,赵保军,张辉,焦继超.DCT和LBP特征融合的人脸识别[J].北京理工大学学报,2010,30(11):1355-1359. 被引量：18
5程德志,李言俊,余瑞星.基于改进SIFT算法的图像匹配方法[J].计算机仿真,2011,28(7):285-289. 被引量：50
6李海洋,文永革.基于颜色直方图的SIFT算法改进[J].智能计算机与应用,2013,3(3):25-27. 被引量：1
7张强,蔡云泽,许晓鸣.Orthogonal Discriminant Improved Local Tangent Space Alignment Based Feature Fusion for Face Recognition[J].Journal of Shanghai Jiaotong university(Science),2013,18(4):425-433. 被引量：1
8钱鹏鹏,郑德华,李佳龙,张大鹏.一种基于SIFT算子的深度图像自动配准方法[J].勘察科学技术,2014(3):11-14. 被引量：3
9GAO Zhirong,DING Lixin,XIONG Chengyi,HUANG Bo.A Robust Face Recognition Method Using Multiple Features Fusion and Linear Regression[J].Wuhan University Journal of Natural Sciences,2014,19(4):323-327. 被引量：1
10赵伟.基于BP神经网络的音乐情感分类及评价模型[J].电子设计工程,2015,23(8):71-74. 被引量：10

引证文献6

1宁培阳,史景伦,张荣锋,邱威.基于深度双向模型和特征融合的视频转文字研究[J].计算机应用研究,2020,37(1):317-320. 被引量：1
2刘天华.基于多特征融合和神经网络的电子音乐分类模型[J].现代电子技术,2018,41(19):173-176. 被引量：8
3陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：17
4李金轩,杜军平,周南.基于注意力特征提取网络的图像描述生成算法[J].南京信息工程大学学报（自然科学版）,2019,11(3):295-301. 被引量：4
5王卫民,唐洋,张健,张轶秋.基于卷积神经网络特征融合的人脸识别算法[J].计算机与数字工程,2020,48(1):88-92. 被引量：7
6马进,郝宁宁,李红宇.图像相似性改进算法[J].计算机应用,2022,42(S01):287-291. 被引量：6

二级引证文献42

1陈燕文,李坤,韩焱,王燕平.基于多特征融合的乐器声品质评价方法研究[J].测试技术学报,2019,33(5):421-427.
2张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(5):45-49. 被引量：8
3黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：14
4周玉花,刘勇飞.基于小波变换的电子音乐信号降噪算法[J].微型电脑应用,2020,36(4):129-132. 被引量：1
5冯明强,曹冬颖,李佳妮.基于ResNet50模型的猪脸识别APP设计研究[J].计算机时代,2020(6):46-50. 被引量：3
6李立.基于深度学习的电子音乐信号辨识系统研究[J].现代电子技术,2020,43(15):33-36. 被引量：1
7李策,李智.粒子群优化算法和支持向量机的电子音乐信号分类研究[J].现代电子技术,2020,43(21):51-54. 被引量：11
8蒋宁,方景龙,杨庆.基于单点多盒检测器的全局-局部层级的域适应目标检测[J].计算机应用,2021,41(2):517-522. 被引量：1
9王钰,刘磊.基于特征扩展的网构软件测试数据分类模型构建[J].电子设计工程,2021,29(8):29-32. 被引量：2
10李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6

1张良,周长胜.基于内容的视频语义分析关键技术[J].电子科技,2011,24(10):111-114. 被引量：1
2张晓燕,赵荣椿,聂烜.基于内容视频分析的发展研究[J].计算机应用研究,2005,22(4):12-14. 被引量：5
3姜静,张校尉.基于MPEG-7的视频描述的研究与实现[J].电脑知识与技术,2012,8(5):3184-3186.
4刘云鹏,Stephan Beck,王仁芳,王阳,郑文,Bemd Froehlich.面向3D呈现的有损和无损混合深度视频编码[J].光电子．激光,2017,28(2):211-216.
5孙艳丰,张坤,胡永利.基于深度视频的人体行为特征表示与识别[J].北京工业大学学报,2016,42(7):1001-1008. 被引量：5
6汪晓波,刘斌.基于多分辨奇异值分解的多聚焦图像融合[J].量子电子学报,2014,31(3):257-263. 被引量：12
7王敏超,詹永照,苟建平,毛启容.面向视频语义分析的局部敏感的可鉴别稀疏表示[J].计算机科学,2015,42(9):313-318. 被引量：3
8魏维,何嘉,刘凤玉.视频语义分析运动特征表征与抽取技术研究[J].计算机工程与应用,2007,43(16):213-215.
9汤义,刘伟铭,李彩霞.一种基于MPEG—7标准的混合交通视频描述新模型[J].科学技术与工程,2009,9(9):2496-2500. 被引量：2
10白栋天,张磊,黄华.RGB-D视频中连续动作识别[J].中国科技论文,2016,11(2):168-172. 被引量：3

计算机应用

2017年第4期

浏览历史

内容加载中请稍等...

基于多特征融合的深度视频自然语言描述方法被引量：6

参考文献1

二级参考文献68

共引文献562

同被引文献39

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的深度视频自然语言描述方法 被引量：6

参考文献1

二级参考文献68

共引文献562

同被引文献39

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的深度视频自然语言描述方法被引量：6