-
题名基于位置和多层编码的图像描述生成
- 1
-
-
作者
姜维维
杨有
汪兴建
-
机构
重庆师范大学计算机与信息科学学院
重庆国家应用数学中心
重庆教育管理学校
-
出处
《信息技术》
2024年第9期14-19,28,共7页
-
基金
重庆市教委科学技术研究项目(KJZD-K202200504,KJQN-202200564)
重庆市教育科学“十四五”规划项目(2022-576)。
-
文摘
针对图像描述中位置信息相关性和编码器各层信息利用不充分的问题,提出一种基于Transformer的位置和多层聚合编码的图像描述生成模型。该模型引入一种视觉对象的位置编码机制,通过提取独立区域位置信息中隐藏的相对空间信息,有助于模型关注视觉对象之间的差异与联系。同时在该模型中,提出了一种多层聚合注意编码,通过门控循环单元与自注意力的结合,将多层图像编码信息传递到输出层,使获取的图像特征语义更加丰富。实验结果表明:所提出模型性能明显优于传统编解码器结构的图像描述模型,描述语句更加准确丰富。
-
关键词
图像描述生成
TRANSFORMER
多层聚合编码
位置编码
门控循环单元
-
Keywords
image captioning
Transformer
muti-layer aggregation encoding
location encoding
gated recurrent unit
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-