期刊导航
期刊开放获取
唐山市科学技术情报研究..
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多模态门控自注意力机制的视觉问答模型
被引量:
3
1
作者
陈巧红
漏杨波
+1 位作者
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022年第3期413-423,共11页
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模...
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70.76%和71.12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。
展开更多
关键词
视觉问答
多模态
门控自注意力
双导向注意力
特征融合
在线阅读
下载PDF
职称材料
基于多任务学习与层叠Transformer的多模态情感分析模型
被引量:
1
2
作者
陈巧红
孙佳锦
+1 位作者
漏杨波
方志坚
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2023年第12期2421-2429,共9页
针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模...
针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模态任务损失以筛除噪声并保留模态特征异质性.使用多任务门控机制调整跨模态特征融合,通过层叠Transformer结构融合文本、音频与视觉模态特征,提升融合深度,避免融合特征冗余.在2个公开数据集MOSEI和SIMS上的实验结果表明,相较于其他先进模型,MTSA的整体性能表现更好,二分类准确率分别达到83.51%和84.18%.
展开更多
关键词
多模态情感分析
长短时记忆(LSTM)
TRANSFORMER
多任务学习
跨模态特征融合
在线阅读
下载PDF
职称材料
基于空间关系聚合与全局特征注入的视觉问答模型
3
作者
陈巧红
漏杨波
方贤
《浙江理工大学学报(自然科学版)》
2023年第6期764-774,共11页
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些...
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。
展开更多
关键词
视觉问答
空间关系聚合
全局特征注入
视觉区域特征
视觉全局特征
双边门控机制
在线阅读
下载PDF
职称材料
题名
基于多模态门控自注意力机制的视觉问答模型
被引量:
3
1
作者
陈巧红
漏杨波
孙麒
贾宇波
机构
浙江理工大学信息学院
出处
《浙江理工大学学报(自然科学版)》
2022年第3期413-423,共11页
基金
浙江理工大学中青年骨干人才培养经费项目。
文摘
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70.76%和71.12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。
关键词
视觉问答
多模态
门控自注意力
双导向注意力
特征融合
Keywords
visual question answering
multimodal
gate self-attention
dual guided-attention
feature fusion
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于多任务学习与层叠Transformer的多模态情感分析模型
被引量:
1
2
作者
陈巧红
孙佳锦
漏杨波
方志坚
机构
浙江理工大学计算机科学与技术学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2023年第12期2421-2429,共9页
基金
浙江理工大学中青年骨干人才培养经费项目。
文摘
针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模态任务损失以筛除噪声并保留模态特征异质性.使用多任务门控机制调整跨模态特征融合,通过层叠Transformer结构融合文本、音频与视觉模态特征,提升融合深度,避免融合特征冗余.在2个公开数据集MOSEI和SIMS上的实验结果表明,相较于其他先进模型,MTSA的整体性能表现更好,二分类准确率分别达到83.51%和84.18%.
关键词
多模态情感分析
长短时记忆(LSTM)
TRANSFORMER
多任务学习
跨模态特征融合
Keywords
multimodal sentiment analysis
long short-term memory(LSTM)
Transformer
multi-task learning
cross-modal feature fusion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于空间关系聚合与全局特征注入的视觉问答模型
3
作者
陈巧红
漏杨波
方贤
机构
浙江理工大学计算机科学与技术学院
出处
《浙江理工大学学报(自然科学版)》
2023年第6期764-774,共11页
基金
浙江省自然科学基金项目(LQ23F020021)
浙江理工大学科研启动项目(22232262-Y)。
文摘
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。
关键词
视觉问答
空间关系聚合
全局特征注入
视觉区域特征
视觉全局特征
双边门控机制
Keywords
visual question answering
spatial relationship aggregation
global feature injection
visual regional feature
visual global feature
bilateral gating mechanism
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多模态门控自注意力机制的视觉问答模型
陈巧红
漏杨波
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022
3
在线阅读
下载PDF
职称材料
2
基于多任务学习与层叠Transformer的多模态情感分析模型
陈巧红
孙佳锦
漏杨波
方志坚
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2023
1
在线阅读
下载PDF
职称材料
3
基于空间关系聚合与全局特征注入的视觉问答模型
陈巧红
漏杨波
方贤
《浙江理工大学学报(自然科学版)》
2023
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部