全卷积神经结构的段落式图像描述算法被引量：2

Paragraph Image Captioning with Deep Fully Convolutional Neural Networks

导出

摘要针对段落式图像描述生成研究中提升描述语句之间的连贯性问题,提出了一种基于全卷积结构的图像段落描述算法.采用基于卷积网络的区域检测器获取图像表示,结合段落在语言学角度的层次性,构建一种层次性的深度卷积解码器对图像表示解码,自动生成段落式文本描述.同时将门控机制嵌入卷积解码器网络中,以提升模型的记忆能力.实验结果表明,相比于基于循环神经网络等传统段落图像的描述方法,新算法能够为图像生成更为连贯的段落式文本描述,在评测指标上取得较好的结果. How to improve the coherence among descriptive sentences for the paragraph image captioning is paid attention currently.A fully convolutional neural architecture for paragraph image captioning was proposed.An image representation is first obtained using a region detector based on a convolutional network.Then a hierarchical deep convolutional decoder is constructed to translate the image representation,automatically generating a paragraph text description.In addition,the gating mechanism is embedded in the convolutional decoder network to improve memory capacity of the model.Experiments demonstrate that compared with those traditional methods based on recurrent neural networks,the proposed algorithm can generate more coherent paragraph text descriptions for images,achieving better results on evaluation metrics.

作者李睿凡梁昊雨冯方向张光卫王小捷 LI Rui-fan;LIANG Hao-yu;FENG Fang-xiang;ZHANG Guang-wei;WANG Xiao-jie(School of Computer Science,Beijing University of Posts and Telecommunications,Beijing 100876,China;Engineering Research Center of Information Networks,Ministry of Education,Beijing 100876,China;Institute of Network Technology,Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区北京邮电大学计算机学院教育部信息网络工程研究中心北京邮电大学网络技术研究院

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2019年第6期155-161,共7页 Journal of Beijing University of Posts and Telecommunications

基金国家重点研发计划项目(2019YFF0303302) 国家自然科学基金项目(61906018) 国家电网公司总部科技项目(5200-201918255A-0-0-00).

关键词卷积网络深度学习图像描述连贯性 convolutional networks deep learning image captioning coherence

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献6

1董永峰,杨雨䜣,王利琴.基于多尺度特征提取和全连接条件随机场的图像语义分割方法[J].激光与光电子学进展,2019,56(13):101-109. 被引量：6
2王媛华.基于多融合模型的图像语义描述研究[J].河南科技,2019,0(14):34-36. 被引量：2
3赵小虎,尹良飞,赵成龙.基于全局-局部特征和自适应注意力机制的图像语义描述算法[J].浙江大学学报（工学版）,2020,54(1):126-134. 被引量：6
4岳师怡.基于多层级上下文信息的图像语义分割[J].激光与光电子学进展,2019,56(24):107-115. 被引量：6
5耿丽丽,牛保宁.深度神经网络模型压缩综述[J].计算机科学与探索,2020,14(9):1441-1455. 被引量：20
6陶志勇,李杰,唐晓亮.融合小波变换与胶囊网络的纹理图像分类算法[J].激光与光电子学进展,2020,57(24):50-60. 被引量：5

引证文献2

1许昊,张凯,田英杰,种法广,王子超.深度神经网络图像描述综述[J].计算机工程与应用,2021,57(9):9-22. 被引量：13
2郭列,张团善,孙威振,郭杰龙.融合空间注意力机制的图像语义描述算法[J].激光与光电子学进展,2021,58(12):313-322. 被引量：11

二级引证文献24

1周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63. 被引量：1
2谢军,肖朝轩,张思刚,刘力卿,律方成,谢庆.基于迁移学习和特征融合的复合绝缘子憎水性等级判别方法[J].电网技术,2021,45(10):3964-3971. 被引量：8
3千月欣,王永忠,李佳骏,徐天羿.基于深度学习的机场能见度预测研究[J].云南民族大学学报（自然科学版）,2021,30(6):615-620. 被引量：4
4颜世东,杨望灿.面向异构融合的飞行试验异常数据预测技术研究[J].舰船电子工程,2022,42(5):91-95. 被引量：1
5曹洋,张莉,孟俊熙,宋倩,张乐天.针对X光安检场景的多目标违禁品识别算法[J].激光与光电子学进展,2022,59(10):314-322. 被引量：4
6黄显岚.基于SE-ResNet和扩展长短期记忆网络的医学影像描述研究[J].信息与电脑,2022,34(10):44-48.
7孟俊熙,张莉,曹洋,张乐天,宋倩.基于Deeplab v3+的图像语义分割算法优化研究[J].激光与光电子学进展,2022,59(16):151-160. 被引量：16
8李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
9朱家松,马天柱,杨昊坤,方旭,李庆.基于视觉注意力机制的下水管病害识别方法[J].激光与光电子学进展,2022,59(18):226-231. 被引量：1
10庄文华,唐晓刚,张斌权,原光明.基于生成对抗网络的高照度可见光图像生成[J].计算机与现代化,2023(1):1-6.

1武子玉,侯宏旭,白天罡,吉亚图,乌尼尔,郭紫月,王雪姣,孙硕.基于CSGAN的多模型融合蒙汉神经机器翻译研究[J].江西师范大学学报（自然科学版）,2020,44(2):153-159. 被引量：5
2李丹.浅析大数据环境下递归函数及其应用[J].计算机产品与流通,2020,0(3):96-96.
3黄佳佳,李鹏伟,彭敏,谢倩倩,徐超.基于深度学习的主题模型研究[J].计算机学报,2020,43(5):827-855. 被引量：50
4刘咏彬,王小捷,袁彩霞,易炼.通过检测语义分歧识别无答案问题(英文)[J].北京邮电大学学报,2019,42(6):126-133.
5李伟浩,张学民,张小明.脊髓电刺激治疗慢性下肢缺血性疾病的研究进展[J].中华普通外科杂志,2020,35(4):350-352. 被引量：4

北京邮电大学学报

2019年第6期

浏览历史

内容加载中请稍等...

全卷积神经结构的段落式图像描述算法被引量：2

同被引文献6

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

全卷积神经结构的段落式图像描述算法 被引量：2

同被引文献6

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

全卷积神经结构的段落式图像描述算法被引量：2