基于视觉-语义中间综合属性特征的图像中文描述生成算法被引量：3

Chinese Image Captioning Based on Middle-Level Visual-Semantic Composite Attributes

在线阅读下载PDF

导出

摘要图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。 Image captioning is a multi-modal information processing task in the cross domain of computer vision,natural language processing and machine learning.In contrast to the existing studies on English image captioning,this paper proposes an image Chinese image captioning algorithm by extracting multi-level visual semantic attributes for content representation.Experiments are performed on the AI Challenger 2017,the largest Chinese image captioning dataset at present,and the Flick8 k-CN Chinese image captioning dataset.Compared with mainstream image description algorithms,the algorithm has a significant improvement of about 3%-30%.

作者肖雨寒江爱文王明文揭安全 XIAO Yuhan;JIANG Aiwen;WANG Mingwen;JIE Anquan(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang,Jiangxi 330022,China)

机构地区江西师范大学计算机信息工程学院

出处《中文信息学报》 CSCD 北大核心 2021年第4期129-138,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61966018,61876074) 江西省自然科学基金(20181BAB202013) 江西省教育厅科技项目(GJJ160277,GJJ150350)。

关键词图像中文描述目标检测注意力机制 image Chinese description object detection attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1周铭柯,柯逍,杜明智.基于数据均衡的增进式深度自动图像标注[J].软件学报,2017,28(7):1862-1880. 被引量：7
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：28
3张博,郝杰,马刚,史忠植.基于弱匹配概率典型相关性分析的图像自动标注[J].软件学报,2017,28(2):292-309. 被引量：8

二级参考文献16

1路晶,马少平.基于概念索引的图像自动标注[J].计算机研究与发展,2007,44(3):452-459. 被引量：10
2张鸿,吴飞,庄越挺,陈建勋.一种基于内容相关性的跨媒体检索方法[J].计算机学报,2008,31(5):820-826. 被引量：34
3王梅,周向东,张军旗,许红涛,施伯乐.基于扩展生成语言模型的图像自动标注方法[J].软件学报,2008,19(9):2449-2460. 被引量：9
4彭岩,张道强.半监督典型相关分析算法[J].软件学报,2008,19(11):2822-2832. 被引量：32
5李志欣,施智平,刘曦,史忠植.建模连续视觉特征的图像语义标注方法[J].计算机辅助设计与图形学学报,2010,22(8):1412-1420. 被引量：9
6周旭东,陈晓红,陈松灿.增强组合特征判别性的典型相关分析[J].模式识别与人工智能,2012,25(2):285-291. 被引量：8
7田枫,沈旭昆.一种适合弱标签数据集的图像语义标注方法[J].软件学报,2013,24(10):2405-2418. 被引量：3
8邱泽宇,方全,桑基韬,徐常胜.基于区域上下文感知的图像标注[J].计算机学报,2014,37(6):1390-1397. 被引量：12
9张博,郝杰,马刚,岳金朋,张建华,史忠植.混合概率典型相关性分析[J].计算机研究与发展,2015,52(7):1463-1476. 被引量：26
10蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016,53(1):113-122. 被引量：95

共引文献40

1李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
2蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：72
3包姣.多维视觉图像敏感区域智能标记方法仿真[J].计算机仿真,2017,34(11):324-327.
4王述,史忠植.基于深度典型相关性分析的跨媒体语义检索[J].中国科学技术大学学报,2018,48(4):322-330. 被引量：2
5陈威,祁伟彦,袁福香,李哲敏.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(5):91-101. 被引量：5
6王星峰.基于CNN和LSTM的智能文本分类[J].辽东学院学报（自然科学版）,2019,26(2):126-132. 被引量：2
7税留成,刘卫忠,冯卓明.基于生成式对抗网络的图像自动标注[J].计算机应用,2019,39(7):2129-2133. 被引量：8
8巫红霞,谢强.基于加权社区检测与增强人工蚁群算法的高维数据特征选择[J].计算机应用与软件,2019,36(9):285-292. 被引量：9
9赵鹏,高浩渊,姚晟,杜奕.面向弱匹配的跨媒异构迁移学习[J].计算机辅助设计与图形学学报,2019,31(11):1963-1972. 被引量：1
10陈立潮,武晨燕,曹建芳,潘理虎,张英俊.基于双通道卷积神经网络的多标签图像标注[J].计算机工程与设计,2019,40(12):3601-3607. 被引量：6

同被引文献30

1邹同华,高云鹏,伊慧娟,徐长宝,夏睿,吴聪.基于Thompson tau-四分位和多点插值的风电功率异常数据处理[J].电力系统自动化,2020(15):156-165. 被引量：46
2唐群,韦源生,劳景寮.利用Spatialite数据库处理宗地数据及GIS入库实现[J].桂林理工大学学报,2013,33(1):90-94. 被引量：9
3刘畅,周向东,施伯乐.图像语义相似性网络的文本描述方法[J].计算机应用与软件,2018,35(1):211-216. 被引量：2
4刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：6
5洪嘉炜,杨剑友,奚洪磊,周震宇,王云,赵张磊,陈佳佳.基于移动互联的变电站故障录波及报文分析装置研究[J].电力系统保护与控制,2020,48(1):157-163. 被引量：16
6赵宇,殷树娟,李翔宇.一种可重构以太网数据包解析器中可重构单元的设计[J].计算机工程与科学,2020,42(2):220-228. 被引量：6
7张华强,李凯航,王继刚.基于线性时态逻辑的物联网操作系统安全性设计[J].电子技术应用,2020,46(2):92-97. 被引量：3
8周步祥,杨明通,林楠,李祖钢,董申,何飞宇.利用PMU测量节点间相角差进行孤岛故障诊断[J].电测与仪表,2020,57(6):102-107. 被引量：8
9左志斌,常朝稳,祝现威.一种基于数据平面可编程的软件定义网络报文转发验证机制[J].电子与信息学报,2020,42(5):1110-1117. 被引量：7
10赵琪琪,马慧芳,刘海姣,贾俊杰.融合节点属性与结构信息的子空间异常社区检测方法[J].计算机工程,2020,46(6):94-102. 被引量：1

引证文献3

1李艳,金小峰.基于综合几何关系稀疏自注意力机制的图像标注方法研究[J].计算机应用研究,2022,39(4):1132-1136. 被引量：6
2叶小波.基于嵌入式及ASG技术的物联网节点捕获攻击检测系统[J].计算机测量与控制,2023,31(8):77-83.
3郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80.

二级引证文献6

1张领先,景嘉平,李淑菲,朱昕怡,乔琛.基于图像自动标注与改进YOLO v5的番茄病害识别系统[J].农业机械学报,2023,54(11):198-207. 被引量：4
2韩镇畴.复杂工况下桥式起重机吊装路径自适应规划方法研究[J].机械设计与制造工程,2024,53(7):135-139. 被引量：1
3董一波,刘立群.基于改进的DISK算法的农林航拍图配准研究[J].软件工程,2025,28(1):28-32.
4杨诗曼,王中训,吴文静,于乐凯.图像自动标注技术研究进展[J].探测与控制学报,2025,47(1):24-32.
5吴文波,杨耀宁,禹谢华.多层卷积神经网络在图像目标标注中的应用[J].计算机仿真,2025,42(2):243-247.
6葛智君,刘梦源,罗剑武.AIGC的发展与挑战综述[J].电子产品可靠性与环境试验,2025,43(1):114-123.

1谢作如,邱奕盛.用GitHub协同共建一个“开源”网站[J].中国信息技术教育,2020(9):91-92. 被引量：1
2刘雪梅,黄管大,黄天来.非序列比对软件SeqDistK在微生物菌群分类中的应用[J].华南理工大学学报（自然科学版）,2019,47(11):71-77.
3郭小宇,马静,Arkaitz Zubiaga,熊建国,郑晨,江艾琪.互联网迷因研究:现状与展望[J].情报理论与实践,2021,44(6):199-207. 被引量：10
4王帅,崔峰,陈证钢,张丽媛.基于BIM的水运工程地质三维设计系统开发与应用[J].水运工程,2021(6):200-205. 被引量：4
5刘铮,周述正,赵祎婷,卢铭娜.基于Image_Caption的车厢场景自适应描述[J].交通科技与管理,2021(16):105-105.
6叶旺盛.掘进机多路阀控制压力特性分析比较[J].煤矿机械,2021,42(6):70-71. 被引量：1
7胡帅,汪维.通道在photoshop中的应用[J].信息技术与信息化,2021(5):154-156. 被引量：4
8夏浩杰,肖剑,盛亮.基于忆阻脉冲耦合神经网络的图像边缘检测[J].软件导刊,2021,20(6):225-229. 被引量：1
9王晨丞,王永前,王利花.基于SAR纹理信息的农作物识别研究——以农安县为例[J].遥感技术与应用,2021,36(2):372-380. 被引量：3
10魏鹏,王思琦,刘云.集料模量对钢桥面铺装层间剪切疲劳影响的细观数值模拟[J].河南科学,2021,39(5):757-764.

中文信息学报

2021年第4期

浏览历史

内容加载中请稍等...

基于视觉-语义中间综合属性特征的图像中文描述生成算法被引量：3

参考文献3

二级参考文献16

共引文献40

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉-语义中间综合属性特征的图像中文描述生成算法 被引量：3

参考文献3

二级参考文献16

共引文献40

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉-语义中间综合属性特征的图像中文描述生成算法被引量：3