期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于推文传播模式与跨模态特征的网络谣言检测研究 被引量:1
1
作者 彭竞杰 顾益军 张岚泽 《情报杂志》 CSSCI 北大核心 2024年第8期124-134,58,共12页
[研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖... [研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖掘方面,首先通过推断潜在连接补全推文传播图,接着采用双向标签图注意力模块编码推文的多个传播模式,然后通过传播模式信息融合模块捕获模式特征间的互补信息,得到帖子的传播特征;在整合多模态特征方面,该模型将帖子的文本、图像和推文传播特征集成在一起,采用跨模态共同注意力机制捕捉不同模态信息间的互补关系,得到帖子的最终嵌入表示,判断是否是谣言。[研究结论]在两个公开数据集上的实验结果表明,PPCMRD模型能够有效地检测谣言,并优于当前的基线模型。 展开更多
关键词 网络谣言 谣言检测 网络谣言检测模型 推文传播模式信息 跨模态特征融合
在线阅读 下载PDF
基于跨模态特征融合的RGB-D显著性目标检测
2
作者 李可新 何丽 +1 位作者 刘哲凝 钟润豪 《国外电子测量技术》 2024年第6期59-67,共9页
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标... RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。 展开更多
关键词 RGB-D显著性目标检测 模态融合网络 跨模态特征融合 模态聚合
在线阅读 下载PDF
基于多尺度跨模态特征融合的图文情感分类模型
3
作者 刘倩 白志豪 +1 位作者 程春玲 归耀城 《计算机科学》 CSCD 北大核心 2024年第9期258-264,共7页
图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于... 图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于多尺度跨模态特征融合的图文情感分类方法。局部尺度方面,基于跨模态注意力机制进行局部特征融合,使模型不仅关注图像和文本的独有信息,而且可以发现图像和文本之间的联系和共有信息。全局尺度方面,基于MLM损失进行全局特征融合,使模型对图像和文本数据进行全局建模,进一步挖掘图像和文本之间的联系,从而促进图像和文本特征的深度融合。在两个公开数据集MVSA-Single和MVSA-Multiple上与10个基线模型进行对比实验,结果表明所提方法在精度、F1值和模型参数量方面均具有明显优势,验证了其有效性。 展开更多
关键词 图文情感分类 跨模态特征融合 Transformer模型 注意力机制 MLM损失
在线阅读 下载PDF
基于跨模态特征融合的行人重识别系统设计 被引量:1
4
作者 许伟 翟煜锦 《信息与电脑》 2022年第12期179-181,共3页
为提高社会公共安全,需要对行人重识别系统研究以及设计,因此本文提出基于跨模态特征融合的行人重识别系统设计方法。该方法的行人重识别系统由前端人机交互模块、视频图像预处理模块、行人重识别模块和数据库存储模块构成,并在视频图... 为提高社会公共安全,需要对行人重识别系统研究以及设计,因此本文提出基于跨模态特征融合的行人重识别系统设计方法。该方法的行人重识别系统由前端人机交互模块、视频图像预处理模块、行人重识别模块和数据库存储模块构成,并在视频图像预处理模块中引入了随机擦除法,以提高图像清晰度,在行人重识别模块中利用深度网络方法提取并融合了模态特征,提高了系统的识别性能。实验结果表明,本文设计的方法图像采集效果好、识别性能强、计算效率高。 展开更多
关键词 跨模态特征 特征融合 随机擦除法 行人重识别
在线阅读 下载PDF
基于跨模态特征融合的胆囊癌诊断模型研究
5
作者 尹梓名 沈达聪 +2 位作者 束翌俊 杨自逸 龚伟 《软件导刊》 2023年第3期103-111,共9页
针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三... 针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三维卷积神经网络提取医学影像深度特征,再将这两者与实验室检查数据进行特征融合,将融合结果作为分类器的输入进行胆囊癌诊断。实验结果表明,该方法在分类准确率、特异度、灵敏度、精确率上相比最优的单类特征模型分别提高16.67%、12.62%、11.54%和13.14%。同5种常见的影像分类模型比较,其在准确率、特异度和精确率上均至少提高10.00%、25.00%和13.33%,由此得出该方法在胆囊癌诊断上具有更好的准确率与可靠性。 展开更多
关键词 胆囊癌 跨模态特征融合 3D U-net 放射组学 三维卷积神经网络 实验室检查数据
在线阅读 下载PDF
结合语义分割与跨模态差分特征补偿的红外与可见光图像融合方法 被引量:1
6
作者 李天放 孙一宸 +1 位作者 于明鑫 董明利 《电子测量与仪器学报》 CSCD 北大核心 2024年第7期34-45,共12页
针对现有红外与可见光图像融合模型在深层特征提取时细节信息丢失、显著目标轮廓模糊的问题,提出一种结合语义分割与跨模态差分特征补偿(CMDFC)的红外与可见光图像融合方法。通过具有卷积注意力机制(CBAM)的跨模态差分特征补偿模块,叠... 针对现有红外与可见光图像融合模型在深层特征提取时细节信息丢失、显著目标轮廓模糊的问题,提出一种结合语义分割与跨模态差分特征补偿(CMDFC)的红外与可见光图像融合方法。通过具有卷积注意力机制(CBAM)的跨模态差分特征补偿模块,叠加不同模态的互补特征信息至原始特征中进行深层特征提取,引入语义分割网络对融合图像进行像素级别的分类操作构造语义损失来约束融合网络,并使用解码器重构融合图像。在公开数据集上进行融合实验的结果表明,相较于对照模型中的最优指标,所选的5种指标均有不同程度的提高,其中互信息(MI)和视觉信息保真度(VIF)分别提高了4.41%和4.25%,说明本文所提出的模型生成的融合图像更清晰,与源图像相关性更强,该方法有效缓解了红外与可见光图像融合过程中特征细节信息丢失的问题,增强了生成图像的视觉效果和对比度。 展开更多
关键词 图像融合 语义分割 注意力机制 模态差分特征补偿
在线阅读 下载PDF
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型 被引量:1
7
作者 林俊安 包翠竹 +2 位作者 董建锋 杨勋 王勋 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2195-2210,共16页
本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构... 本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%. 展开更多
关键词 多语言 模态检索 跨模态特征表示 对比学习
在线阅读 下载PDF
注意力感知特征提取和融合的多模态人脸防伪检测方法
8
作者 刘苏 何岱蔚 +3 位作者 黄颖 万邦睿 刘学 郑钧予 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第5期1032-1041,共10页
针对多模态人脸防伪检测中如何有效融合多模态信息的问题,提出一种注意力感知特征提取和融合的多模态人脸防伪检测方法(attention-aware feature extraction and fusion,AFEF)。在跨模态特征融合部分利用通道和空间注意力机制探索不同... 针对多模态人脸防伪检测中如何有效融合多模态信息的问题,提出一种注意力感知特征提取和融合的多模态人脸防伪检测方法(attention-aware feature extraction and fusion,AFEF)。在跨模态特征融合部分利用通道和空间注意力机制探索不同模态之间的互补信息,以弥补单一模态特征表达不足的问题;利用卷积融合方式融合多模态特征,以避免信息覆盖或者无关信息强化的问题;在特征提取部分引入CBAM注意力机制,获得更细粒度的各模态特征表示,便于后续进行跨模态特征融合。实验结果表明,与当前其他主流多模态人脸防伪算法相比,提出的方法在CASIA-SURF和CeFA两个多模态数据集上的平均分类错误率(average classification error rate,ACER)均最低,算法有效。 展开更多
关键词 人脸防伪 模态 跨模态特征融合 通道和空间注意力
在线阅读 下载PDF
一种单阶段无监督可见光-红外跨模态行人重识别方法
9
作者 娄刃 和任强 +4 位作者 赵三元 郝昕 周跃琪 汪心渊 李方芳 《计算机科学》 CSCD 北大核心 2024年第S01期528-534,共7页
无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的... 无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的跨模态特征处理方法,分别用于解决无标签问题和跨模态问题。实验结果表明,相较于现有算法,所提方法在r=1时精度至少取得了7%的提高。 展开更多
关键词 模态学习 无监督行人重识别 可见光-红外行人重识别 无监督学习 跨模态特征处理
在线阅读 下载PDF
基于三维跨模态ConvFormer的肺部肿瘤识别
10
作者 周涛 叶鑫宇 +1 位作者 刘凤珍 陆惠玲 《计算机辅助设计与图形学学报》 CSCD 北大核心 2024年第12期1978-1985,共8页
针对三维医学影像因肺部肿瘤形状不规则、差异性大,导致特征提取不充分和识别不准确的问题,提出一种基于CNN和Transformer的三维跨模态肺部肿瘤识别模型3D-CConvFormer.首先,利用三分支网络学习三维PET,CT和PET/CT影像中病灶的特征;其次... 针对三维医学影像因肺部肿瘤形状不规则、差异性大,导致特征提取不充分和识别不准确的问题,提出一种基于CNN和Transformer的三维跨模态肺部肿瘤识别模型3D-CConvFormer.首先,利用三分支网络学习三维PET,CT和PET/CT影像中病灶的特征;其次,设计全局特征与浅层局部特征融合的高效ConvFormer模块,并利用自校正卷积对感受野进行有效扩展,提高每个模态中对病灶信息的提取能力;最后,设计双分支不同分辨率的跨模态特征交互块,利用2个全局注意力机制交叉学习不同模态、全局和局部信息,交互式地增强跨模态特征提取能力.实验采用的肺部肿瘤3D多模态数据集,该数据集共有3173例患者,3D-CConvFormer模型在参数量和运行时间较优的前提下,获得了89.25%的准确率和88.74%的AUC值的最优性能,为三维多模态肺部肿瘤疾病诊断提供可靠的计算机辅助. 展开更多
关键词 肺部肿瘤 ConvFormer 跨模态特征交互 三维PET/CT多模态影像
在线阅读 下载PDF
基于改进U⁃Net和跨模态自蒸馏的医学图像融合
11
作者 刘势杰 王丽芳 郁晓庆 《测试技术学报》 2024年第6期686-694,共9页
针对医学图像融合方法中存在融合图像信息完整性丢失和跨模态特征提取不足的问题,提出了一种基于改进U-Net和跨模态自蒸馏的医学图像融合方法。该方法改进了U-Net的编码部分,设计了一个双分支编码器,它结合了CNN和Transformer的优势,能... 针对医学图像融合方法中存在融合图像信息完整性丢失和跨模态特征提取不足的问题,提出了一种基于改进U-Net和跨模态自蒸馏的医学图像融合方法。该方法改进了U-Net的编码部分,设计了一个双分支编码器,它结合了CNN和Transformer的优势,能够更有效地捕捉和保留医学图像的局部特征和全局特征,解决了信息完整性丢失的问题。采用跨模态自蒸馏技术,在两幅医学图像的CNN分支之间、Trans⁃former分支之间进行信息传递,加强不同模态特征之间的交互,最大程度地获取跨模态特征。在解码阶段,提出注意力门机制代替U-Net中的跳跃连接,保证网络能够有效关注关键特征,进一步增强了融合图像的信息完整性。实验结果表明,相较于其他方法,该方法得到的融合图像不仅保留了更完整的纹理细节和边缘信息,而且有效地解决了跨模态特征提取不足的问题。 展开更多
关键词 医学图像融合 U-Net 模态自蒸馏 跨模态特征 注意力门
在线阅读 下载PDF
基于改进的FGM-CM-BERT模型多模态情感分析方法
12
作者 李仁正 高冠东 +1 位作者 宋胜尊 肖珂 《河北大学学报(自然科学版)》 北大核心 2025年第2期192-203,共12页
针对语音文本多模态情感分析方法中泛化能力弱和特征融合效率低的问题,提出了一种改进的FGM-CM-BERT模型,改进快速梯度法(FGM)以对抗训练提升模型泛化能力,并采用多头注意力机制提取融合多模态特征,以提升算法准确度.首先,根据多模态数... 针对语音文本多模态情感分析方法中泛化能力弱和特征融合效率低的问题,提出了一种改进的FGM-CM-BERT模型,改进快速梯度法(FGM)以对抗训练提升模型泛化能力,并采用多头注意力机制提取融合多模态特征,以提升算法准确度.首先,根据多模态数据特征,通过一种基于输入数据特征的自适应参数调整策略来改进FGM权重函数,在embedding层增加自适应扰动提升模型泛化能力;其次,在跨模态交互层提出利用多头自注意力机制,通过将文本查询和音频键值对交叉融合,在特征融合效率与模型复杂度之间达到了较好的平衡;最后,实验采用CMU-MOSI和CMU-MOSEI数据集,对比了常用的15个基线模型,结果表明:该模型在七类情绪评分分类及二元情绪分类的准确率较基线模型均有所提升,分别达到了48.2%和87.5%,验证了该方法的有效性. 展开更多
关键词 模态情感分析 快速梯度法 多头注意力机制 对抗训练 自适应扰动 跨模态特征融合
在线阅读 下载PDF
基于图像和特征联合优化的跨模态行人重识别研究
13
作者 张辉 刘世洪 钟武 《荆楚理工学院学报》 2023年第2期9-17,共9页
跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像... 跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像卷积生成器对可见光图像进行增广,采用色彩抖动方式对红外图像进行增广,并使用正样本优化轻量级异构图像卷积生成器来约束损失。在此基础上,使用两个模态分类器和跨模态特征对齐损失作为指导,不断学习获得模态共享的特征。在两个数据集上的大量实验表明,我们的方法具有优异的性能,在SYSU-MM01和RegDB数据集上分别达到了rank1/mAP 57.82%/54.35%和80.39%/75.05%的精度。 展开更多
关键词 模态行人重识别 模态差异 异质图像增广 跨模态特征对齐
在线阅读 下载PDF
鉴别流形敏感的跨模态轴承故障诊断方法
14
作者 朱彦敏 苏树智 《重庆工商大学学报(自然科学版)》 2024年第3期113-118,共6页
目的在实际应用中采集的原始多模态故障数据通常是包含大量噪声和冗余信息的非线性数据,如何从不同故障模态中提取有效的非线性故障特征仍是一个挑战性的问题。方法提出了一种鉴别流形敏感的跨模态故障诊断方法,在该方法中首先借助相关... 目的在实际应用中采集的原始多模态故障数据通常是包含大量噪声和冗余信息的非线性数据,如何从不同故障模态中提取有效的非线性故障特征仍是一个挑战性的问题。方法提出了一种鉴别流形敏感的跨模态故障诊断方法,在该方法中首先借助相关分析理论在跨模态故障空间中构建了不同模态间的相关系数,并通过理论推导获得了相关系数的等价优化模型,然后利用局部近邻图构建了鉴别流形敏感散布,进而通过最大化不同模态间的相关性和最小化鉴别流形敏感散布,形成了鉴别流形敏感的跨模态故障诊断模型,并且在理论上推导出了该优化模型的解析解,从而能够从不同模态的故障数据中学习强鉴别力的非线性故障特征。结果在德国帕德博恩轴承数据集和多模态轴承故障数据集上设计了针对性实验,实验结果显示在少量故障样本用于训练时即可获得良好的诊断准确性。结论提出的方法是一种有效的跨模态故障诊断方法。 展开更多
关键词 故障诊断 模态故障特征抽取 鉴别流形结构
在线阅读 下载PDF
基于知识图谱增强的领域多模态实体识别 被引量:1
15
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 模态 领域 知识图谱 跨模态特征融合 注意力机制
在线阅读 下载PDF
基于预训练和多模态融合的假新闻检测 被引量:1
16
作者 周昊玮 刘勇 玄萍 《计算机工程》 CSCD 北大核心 2024年第1期289-295,共7页
现有的多模态检测模型通常对每个模态的特征进行简单拼接,不能对模态之间的相关性进行有效建模,而且很难迁移到标签稀少的领域。提出一种基于预训练和多模态融合的假新闻检测模型PMFD。提取新闻附带图像不同区域的特征作为图像原始向量... 现有的多模态检测模型通常对每个模态的特征进行简单拼接,不能对模态之间的相关性进行有效建模,而且很难迁移到标签稀少的领域。提出一种基于预训练和多模态融合的假新闻检测模型PMFD。提取新闻附带图像不同区域的特征作为图像原始向量,合并图像原始向量作为图像引导向量,设计早期融合、中期融合、后期融合3种不同的多模态融合方式。在早期融合阶段,通过图像引导向量初始化文本特征提取器,获取文本原始向量,合并文本原始向量作为文本引导向量。在中期融合阶段,使用模态的原始向量集合与其他模态的引导向量构造模态的特征表示。在后期融合阶段,融合不同模态的特征表示,构造新闻的特征表示。为提高模型的泛化能力,在标签丰富的数据上对PMFD进行预训练,然后再在标签稀少的数据上对PMFD进行微调。在公开数据集上的实验结果表明,PMFD能有效检测假新闻结果,相对传统模型CNN、LSTM、BERT等有10%以上的提升,相对EANN、M_model多模态假新闻检测模型有2%~3%的提升。 展开更多
关键词 假新闻检测 预训练 模态融合 引导向量 模态共享特征 阶段融合
在线阅读 下载PDF
基于多任务学习与层叠Transformer的多模态情感分析模型 被引量:1
17
作者 陈巧红 孙佳锦 +1 位作者 漏杨波 方志坚 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第12期2421-2429,共9页
针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模... 针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模态任务损失以筛除噪声并保留模态特征异质性.使用多任务门控机制调整跨模态特征融合,通过层叠Transformer结构融合文本、音频与视觉模态特征,提升融合深度,避免融合特征冗余.在2个公开数据集MOSEI和SIMS上的实验结果表明,相较于其他先进模型,MTSA的整体性能表现更好,二分类准确率分别达到83.51%和84.18%. 展开更多
关键词 模态情感分析 长短时记忆(LSTM) TRANSFORMER 多任务学习 跨模态特征融合
在线阅读 下载PDF
基于多层次特征融合的RGB-D显著性检测 被引量:1
18
作者 史悦 于万钧 陈颖 《计算机工程与应用》 CSCD 北大核心 2023年第7期207-213,共7页
大多数RGB-D显著性检测方法在探索各层跨模态信息时,往往直接将深度图不加处理地与RGB图进行融合,并且在各个层次采用相同的融合策略。然而,这会产生两个问题:(1)低质量深度图会把大量的冗余信息带入网络中,给检测带来负面影响;(2)在各... 大多数RGB-D显著性检测方法在探索各层跨模态信息时,往往直接将深度图不加处理地与RGB图进行融合,并且在各个层次采用相同的融合策略。然而,这会产生两个问题:(1)低质量深度图会把大量的冗余信息带入网络中,给检测带来负面影响;(2)在各个层次上采用相同的融合策略,忽略了模型在不同层次对全局和局部特征具有不同的关注度。为了解决上述问题,提出了一种自顶向下的多层次特征融合结构,通过设计深度增强模块有效地过滤低质量深度图信息;设计高层交融模块有效地整合高层中的全局特征;设计低层交融模块有效提取与融合有用的局部特征。通过在5个公共数据集上与7种先进模型进行的综合实验表明,该模型在F(F-measure)指标、avgF(average F-measure)指标、S(S-measure)指标和MAE(mean absolute error)4个指标上表现出了良好的性能。 展开更多
关键词 显著性检测 跨模态特征 通道注意力 特征交融
在线阅读 下载PDF
Efficient Reconstruction of Spatial Features for Remote Sensing Image-Text Retrieval
19
作者 ZHANG Weihang CHEN Jialiang +3 位作者 ZHANG Wenkai LI Xinming GAO Xin SUN Xian 《Transactions of Nanjing University of Aeronautics and Astronautics》 2025年第1期101-111,共11页
Remote sensing cross-modal image-text retrieval(RSCIR)can flexibly and subjectively retrieve remote sensing images utilizing query text,which has received more researchers’attention recently.However,with the increasi... Remote sensing cross-modal image-text retrieval(RSCIR)can flexibly and subjectively retrieve remote sensing images utilizing query text,which has received more researchers’attention recently.However,with the increasing volume of visual-language pre-training model parameters,direct transfer learning consumes a substantial amount of computational and storage resources.Moreover,recently proposed parameter-efficient transfer learning methods mainly focus on the reconstruction of channel features,ignoring the spatial features which are vital for modeling key entity relationships.To address these issues,we design an efficient transfer learning framework for RSCIR,which is based on spatial feature efficient reconstruction(SPER).A concise and efficient spatial adapter is introduced to enhance the extraction of spatial relationships.The spatial adapter is able to spatially reconstruct the features in the backbone with few parameters while incorporating the prior information from the channel dimension.We conduct quantitative and qualitative experiments on two different commonly used RSCIR datasets.Compared with traditional methods,our approach achieves an improvement of 3%-11% in sumR metric.Compared with methods finetuning all parameters,our proposed method only trains less than 1% of the parameters,while maintaining an overall performance of about 96%. 展开更多
关键词 remote sensing cross-modal image-text retrieval(RSCIR) spatial features channel features contrastive learning parameter effective transfer learning
在线阅读 下载PDF
基于彩色图像高频信息引导的深度图超分辨率重建算法研究
20
作者 李嘉莹 梁宇栋 +2 位作者 李少吉 张昆鹏 张超 《计算机科学》 CSCD 北大核心 2024年第7期197-205,共9页
深度图像信息是三维场景信息的重要组成部分,然而,由于采集设备的局限性和成像环境的多样性,深度传感器获取的深度图像往往分辨率较低、高频信息较少,限制了其在各种计算机视觉任务中的进一步应用。深度图超分辨率试图提高深度图的分辨... 深度图像信息是三维场景信息的重要组成部分,然而,由于采集设备的局限性和成像环境的多样性,深度传感器获取的深度图像往往分辨率较低、高频信息较少,限制了其在各种计算机视觉任务中的进一步应用。深度图超分辨率试图提高深度图的分辨率,是一项实用而有价值的任务。同一场景下的RGB图像分辨率高,纹理信息丰富,部分深度图超分辨率算法通过引入来自同一场景下的RGB图像提供指导信息,实现了算法性能的显著提升。然而,由于RGB图像和深度图之间的模态不一致,如何充分、有效地利用RGB信息辅助深度图像进行图像超分辨率重建仍然极具挑战。为此,提出了一种基于彩色图像高频信息引导的深度图超分辨率重建算法。具体地,设计了一个高频特征提取模块来自适应地学习彩色图像中的高频信息,以指导深度图边缘的重建。另外,设计了一个特征自注意力模块来获取特征之间的全局依赖,同时提取更深层次的特征,以帮助深度图细节信息的恢复。经过跨模态融合,重组深度图像特征和彩色图像引导特征,并使用多尺度特征融合模块融合不同尺度特征之间的空间结构信息,获取包含多级感受野的重建信息。最后,通过深度重建模块,恢复相应的高分辨率深度图。公开数据集上的实验结果表明所提方法在定量和定性两方面均优于对比方法,验证了所提方法的有效性。 展开更多
关键词 深度图超分重建 深度学习 跨模态特征融合 高频信息 自注意力机制
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部