摘要
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。
Image captioning is a multi-modal information processing task in the cross domain of computer vision,natural language processing and machine learning.In contrast to the existing studies on English image captioning,this paper proposes an image Chinese image captioning algorithm by extracting multi-level visual semantic attributes for content representation.Experiments are performed on the AI Challenger 2017,the largest Chinese image captioning dataset at present,and the Flick8 k-CN Chinese image captioning dataset.Compared with mainstream image description algorithms,the algorithm has a significant improvement of about 3%-30%.
作者
肖雨寒
江爱文
王明文
揭安全
XIAO Yuhan;JIANG Aiwen;WANG Mingwen;JIE Anquan(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang,Jiangxi 330022,China)
出处
《中文信息学报》
CSCD
北大核心
2021年第4期129-138,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(61966018,61876074)
江西省自然科学基金(20181BAB202013)
江西省教育厅科技项目(GJJ160277,GJJ150350)。
关键词
图像中文描述
目标检测
注意力机制
image Chinese description
object detection
attention mechanism