期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于多模态预训练模型的水稻病虫害图像描述生成研究 被引量:2
1
作者 薛悦平 胡彦蓉 +2 位作者 刘洪久 童莉珍 葛万钊 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟... [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。 展开更多
关键词 多模态预训练模型 水稻病虫害 图像描述生成 诊断
在线阅读 下载PDF
民族服装图像描述生成的局部属性注意网络
2
作者 张绪辉 刘骊 +2 位作者 付晓东 刘利军 彭玮 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第3期399-412,共14页
针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30000幅图像,约3600 MB的民族服装图像描述生成数据... 针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30000幅图像,约3600 MB的民族服装图像描述生成数据集;然后定义民族服装208种局部关键属性词汇和30089条文本信息,通过局部属性学习模块进行视觉特征提取和文本信息嵌入,并采用多实例学习得到局部属性;最后基于双层长短期记忆网络定义包含语义、视觉、门控注意力的注意力感知模块,将局部属性、基于属性的视觉特征和文本编码信息进行融合,优化得到民族服装图像描述生成结果.在构建的民族服装描述生成数据集上的实验结果表明,所提出的网络能够生成包含民族类别、服装风格等关键属性的图像描述,较已有方法在精确性指标BLEU和语义丰富程度指标CIDEr上分别提升1.4%和2.2%. 展开更多
关键词 民族服装图像 图像描述生成 文本信息嵌入 局部属性学习 注意力感知
在线阅读 下载PDF
基于全局与序列变分自编码的图像描述生成
3
作者 刘明明 刘浩 +1 位作者 王栋 张海燕 《计算机应用研究》 CSCD 北大核心 2024年第7期2215-2220,共6页
基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer... 基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer的图像描述生成相结合,利用条件似然的变分证据下界分别构建了句子级和单词级的多样化图像描述生成模型,通过引入全局与序列隐嵌入学习增强模型的隐表示能力。在MSCOCO基准数据集上的定量和定性实验结果表明,两种模型均具备图像到文本空间的一对多映射能力。相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在随机生成20个描述语句时,准确性指标CIDEr和多样性指标Div-2分别提升了1.3和33%,在随机生成100个描述语句的情况下,CIDEr和Div-2分别提升了11.4和14%,所提方法能够更好地拟合真实描述分布,在多样性和准确性之间取得了更好的平衡。 展开更多
关键词 图像描述生成 多样化描述 变分Transformer 隐嵌入
在线阅读 下载PDF
全景分割与多视觉特征协同的图像描述生成方法
4
作者 刘明明 陆劲夫 +1 位作者 刘浩 张海燕 《计算机工程》 CAS CSCD 北大核心 2024年第11期308-317,共10页
现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能,然而,大多数方法通常使用区域视觉特征进行编解码,导致无法全面利用整幅图像的细粒度信息,且存在视觉特征混淆问题。为此,将全景分割引入图像描述生成过程,使用基于全... 现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能,然而,大多数方法通常使用区域视觉特征进行编解码,导致无法全面利用整幅图像的细粒度信息,且存在视觉特征混淆问题。为此,将全景分割引入图像描述生成过程,使用基于全景分割的掩膜视觉特征代替区域视觉特征,提出一种全景分割与多视觉特征协同的图像描述生成方法。该方法不仅可以有效解耦视觉表征,而且能够充分结合掩膜视觉特征和网格视觉特征的优势,提升图像描述生成的可解释性和描述性能。在MSCOCO标准数据集上进行定量和定性实验,结果表明,所提方法不仅可以显著提升现有模型的性能,同时能够增强图像描述生成过程的可解释性,CIDEr和BLEU-4指标分别达到138.5和41。 展开更多
关键词 图像理解 图像描述生成 全景分割 特征融合 视觉编码
在线阅读 下载PDF
基于解耦常识性关联的图像描述生成算法
5
作者 刘家伟 林欣 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期131-142,共12页
基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰,提高描述生成的流畅性与准确性.针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句,该算法先通过一种新颖的训练方式加强关系检... 基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰,提高描述生成的流畅性与准确性.针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句,该算法先通过一种新颖的训练方式加强关系检测模型对图像中真实关系的关注程度,提高关系推理的准确性.再通过一种关系感知的实体交互方法,对存在关系的实体进行有针对性的信息交互,对关系信息进行强化.实验表明,该算法能够纠正一些常识性的虚假关系,生成较为准确的图像描述,并在各项评价指标上获得了较好的实验结果. 展开更多
关键词 图像描述生成 解耦常识性关联 注意力机制
在线阅读 下载PDF
基于位置和多层编码的图像描述生成
6
作者 姜维维 杨有 汪兴建 《信息技术》 2024年第9期14-19,28,共7页
针对图像描述中位置信息相关性和编码器各层信息利用不充分的问题,提出一种基于Transformer的位置和多层聚合编码的图像描述生成模型。该模型引入一种视觉对象的位置编码机制,通过提取独立区域位置信息中隐藏的相对空间信息,有助于模型... 针对图像描述中位置信息相关性和编码器各层信息利用不充分的问题,提出一种基于Transformer的位置和多层聚合编码的图像描述生成模型。该模型引入一种视觉对象的位置编码机制,通过提取独立区域位置信息中隐藏的相对空间信息,有助于模型关注视觉对象之间的差异与联系。同时在该模型中,提出了一种多层聚合注意编码,通过门控循环单元与自注意力的结合,将多层图像编码信息传递到输出层,使获取的图像特征语义更加丰富。实验结果表明:所提出模型性能明显优于传统编解码器结构的图像描述模型,描述语句更加准确丰富。 展开更多
关键词 图像描述生成 TRANSFORMER 多层聚合编码 位置编码 门控循环单元
在线阅读 下载PDF
基于RPR-Transformer图像描述生成模型
7
作者 赵芸 《长江信息通信》 2024年第12期84-86,共3页
图像描述生成结合了计算机视觉和自然语言处理,旨在为图像提供准确描述。注意力机制忽略了图像的二维空间特性。文章提出基于物体间相对位置关系的自注意力模型(RPR-Transformer)。通过目标检测技术提取物体特征并计算对应物体的中心位... 图像描述生成结合了计算机视觉和自然语言处理,旨在为图像提供准确描述。注意力机制忽略了图像的二维空间特性。文章提出基于物体间相对位置关系的自注意力模型(RPR-Transformer)。通过目标检测技术提取物体特征并计算对应物体的中心位置以及面积;使用关系特征提取模型提取图像中物体之间的关联特征;对融合后的特征使用门控单元过滤,去除干扰信息。实验结果表明本模型具有较强的鲁棒性。 展开更多
关键词 图像描述生成 关系特征提取 注意力机制
在线阅读 下载PDF
结合视觉特征和场景语义的图像描述生成 被引量:26
8
作者 李志欣 魏海洋 +3 位作者 黄飞成 张灿龙 马慧芳 史忠植 《计算机学报》 EI CSCD 北大核心 2020年第9期1624-1640,共17页
现有的图像描述生成方法大多只使用图像的视觉信息来指导描述的生成,缺乏有效的场景语义信息的指导,而且目前的视觉注意机制也无法调整对图像注意的聚焦强度.针对这些问题,本文首先提出了一种改进的视觉注意模型,引入聚焦强度系数自动... 现有的图像描述生成方法大多只使用图像的视觉信息来指导描述的生成,缺乏有效的场景语义信息的指导,而且目前的视觉注意机制也无法调整对图像注意的聚焦强度.针对这些问题,本文首先提出了一种改进的视觉注意模型,引入聚焦强度系数自动调整注意强度.在解码器的每个时间步,通过模型的上下文信息和图像信息计算注意机制的聚焦强度系数,并通过该系数自动调整注意机制的“软”、“硬”强度,从而提取到更准确的图像视觉信息.此外,本文利用潜在狄利克雷分布模型与多层感知机提取出一系列与图像场景相关的主题词来表示图像场景语义信息,并将这些信息添加到语言生成模型中来指导单词的生成.由于图像的场景主题信息是通过分析描述文本获得,包含描述的全局信息,所以模型可以生成一些适合图像场景的重要单词.最后,本文利用注意机制来确定模型在解码的每一时刻所关注的图像视觉信息和场景语义信息,并将它们结合起来共同指导模型生成更加准确且符合场景主题的描述.实验评估在MSCOCO和Flickr30k两个标准数据集上进行,实验结果表明本文方法能够生成更加准确的描述,并且在整体的评价指标上与基线方法相比有3%左右的性能提升. 展开更多
关键词 图像描述生成 注意机制 场景语义 编码器-解码器框架 强化学习
在线阅读 下载PDF
图像描述生成研究进展 被引量:8
9
作者 李志欣 魏海洋 +2 位作者 张灿龙 马慧芳 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2021年第9期1951-1974,共24页
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习... 图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势. 展开更多
关键词 图像描述生成 编码器-解码器架构 复合架构 注意机制 卷积神经网络 循环神经网络 长短期记忆网络
在线阅读 下载PDF
基于双注意模型的图像描述生成方法研究 被引量:6
10
作者 卓亚琦 魏家辉 李志欣 《电子学报》 EI CAS CSCD 北大核心 2022年第5期1123-1130,共8页
现有图像描述生成方法的注意模型通常采用单词级注意,从图像中提取局部特征作为生成当前单词的视觉信息输入,缺乏准确的图像全局信息指导.针对这个问题,提出基于语句级注意的图像描述生成方法,通过自注意机制从图像中提取语句级的注意信... 现有图像描述生成方法的注意模型通常采用单词级注意,从图像中提取局部特征作为生成当前单词的视觉信息输入,缺乏准确的图像全局信息指导.针对这个问题,提出基于语句级注意的图像描述生成方法,通过自注意机制从图像中提取语句级的注意信息,来表示生成语句所需的图像全局信息.在此基础上,结合语句级注意和单词级注意进一步提出了双注意模型,以此来生成更准确的图像描述.通过在模型的中间阶段实施监督和优化,以解决信息间的干扰问题.此外,将强化学习应用于两阶段的训练来优化模型的评估度量.通过在MSCOCO和Flickr30K两个基准数据集上的实验评估,结果表明本文提出的方法能够生成更加准确和丰富的描述语句,并且在各项评价指标上优于现有的多种基于注意机制的方法. 展开更多
关键词 图像描述生成 编码器-解码器架构 单词级注意 语句级注意 双注意模型 强化学习
在线阅读 下载PDF
基于视觉关联与上下文双注意力的图像描述生成方法 被引量:12
11
作者 刘茂福 施琦 聂礼强 《软件学报》 EI CSCD 北大核心 2022年第9期3210-3222,共13页
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存... 图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention, VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升. 展开更多
关键词 图像描述生成 双注意力机制 视觉关联注意力 上下文注意力
在线阅读 下载PDF
一种结合全局和局部特征的图像描述生成模型 被引量:8
12
作者 靳华中 刘潇龙 胡梓珂 《应用科学学报》 CAS CSCD 北大核心 2019年第4期501-509,共9页
针对局部特征的图像描述模型存在的不足之处,提出了一种结合局部和全局特征的带有注意力机制的图像描述生成模型.在编码器-解码器结构框架下,在编码器端利用InceptionV3和VGG16网络模型分别提取图像的局部特征和全局特征,将两种不同尺... 针对局部特征的图像描述模型存在的不足之处,提出了一种结合局部和全局特征的带有注意力机制的图像描述生成模型.在编码器-解码器结构框架下,在编码器端利用InceptionV3和VGG16网络模型分别提取图像的局部特征和全局特征,将两种不同尺度的图像特征融合形成编码结果.在解码器端,利用长短期记忆网络将提取的图像特征翻译为自然语言,借助微软COCO数据集进行模型训练和测试.实验结果表明:与基于局部特征的图像描述生成模型相比,该方法能够从图像中提取更加丰富完整的信息,生成表达图像内容更加准确的句子. 展开更多
关键词 图像描述生成 注意力机制 图像特征 卷积神经网络 长短期记忆
在线阅读 下载PDF
基于知识辅助的图像描述生成
13
作者 李志欣 苏强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2022年第5期418-432,共15页
为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量... 为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量。针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性。这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力。此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述。在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法。 展开更多
关键词 图像描述生成 内部知识 外部知识 单词注意力 知识图谱 强化学习
在线阅读 下载PDF
基于依存句法的可解释图像描述生成
14
作者 刘茂福 毕健旗 +1 位作者 周冰颖 胡慧君 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2115-2126,共12页
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency sy... 已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling,IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述.IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory,LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS(BLEU-1-DS),B4-DS(BLEU-4-DS),M-DS(METEOR-DS),并在MSCOCO数据集上的实验验证了IDSTM的有效性和可解释性. 展开更多
关键词 图像描述生成 依存句法 可解释性 多任务学习
在线阅读 下载PDF
基于多尺度与注意力特征增强的遥感图像描述生成方法 被引量:5
15
作者 赵佳琦 王瀚正 +2 位作者 周勇 张迪 周子渊 《计算机科学》 CSCD 北大核心 2021年第1期190-196,共7页
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实... 遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。 展开更多
关键词 注意力机制 特征增强 长短期记忆网络 遥感图像描述生成
在线阅读 下载PDF
基于双向注意力机制的图像描述生成 被引量:4
16
作者 张家硕 洪宇 +2 位作者 李志峰 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2020年第9期53-61,共9页
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的"翻译"能力将图像特征解码成文字。然而,在此过程中,单向的注... 结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的"翻译"能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU4分值平均提升0.9,CIDEr值平均提升2.4。 展开更多
关键词 图像描述生成 双向注意力 门控网络 历史语义信息
在线阅读 下载PDF
基于枢轴语言的图像描述生成研究 被引量:3
17
作者 张凯 李军辉 周国栋 《中文信息学报》 CSCD 北大核心 2019年第3期110-117,共8页
当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图... 当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法:(1)串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述;(2)构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU_4值达到0.341。 展开更多
关键词 图像描述生成 机器翻译 神经网络 枢轴语言
在线阅读 下载PDF
从视觉到文本:图像描述生成的研究进展综述 被引量:14
18
作者 魏忠钰 范智昊 +3 位作者 王瑞泽 承怡菁 赵王榕 黄萱菁 《中文信息学报》 CSCD 北大核心 2020年第7期19-29,共11页
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像... 近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。 展开更多
关键词 图像描述生成 跨模态特征对齐 文献综述
在线阅读 下载PDF
融合图像场景与目标显著性特征的图像描述生成方法 被引量:5
19
作者 盛豪 易尧华 汤梓伟 《计算机应用研究》 CSCD 北大核心 2021年第12期3776-3780,共5页
图像描述生成是图像人工智能领域的重要研究方向之一。现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系。提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目... 图像描述生成是图像人工智能领域的重要研究方向之一。现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系。提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补。在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富。 展开更多
关键词 图像描述生成 图像场景 目标显著性特征 特征融合
在线阅读 下载PDF
基于动态语义记忆网络的长尾图像描述生成 被引量:1
20
作者 刘昊 杨小汕 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1399-1408,共10页
图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确... 图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.6028%,召回率为0.3234%,F-1值为0.3567%,相较于基准方法提升明显。 展开更多
关键词 深度学习 图像理解 图像描述生成 长尾分布 记忆网络
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部