期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
跨模态融合和边界可变形卷积引导的RGB-D显著性目标检测 被引量:2
1
作者 孟令兵 袁梦雅 +3 位作者 时雪涵 张乐 吴锦华 程菲 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3155-3166,共12页
RGB-Depth(RGB-D)显著性目标检测是一项有意义且具有挑战性的任务,基于现有卷积神经网络检测方法在简单场景中获得了良好的检测性能,但不能有效应对背景信息混乱,深度图质量低和目标轮廓复杂的情况.为应对上述问题,本文提出了一种跨模... RGB-Depth(RGB-D)显著性目标检测是一项有意义且具有挑战性的任务,基于现有卷积神经网络检测方法在简单场景中获得了良好的检测性能,但不能有效应对背景信息混乱,深度图质量低和目标轮廓复杂的情况.为应对上述问题,本文提出了一种跨模态融合和边界可变形卷积引导的RGB-D显著性目标检测方法.首先,本文以Swin-Transformer为特征提取器,分别对RGB模态与深度图模态进行特征提取,并通过跨模态注意力增强特征模块对两种模态特征进行融合以挖掘显著物的共性与互补特征.接着将提出的相邻多尺度特征增强模块嵌入编码器深层,以获得丰富的全局上下文特征信息,更精准地定位显著物的位置.然后通过构建一个边界特征提取解码器(U-Net架构)生成显著物的边界线索图,并重复采用跨模态融合特征确保生成显著物边界的完整性.最后,本文设计了一个边界可变形卷积引导模块,使用边界线索图与可变形卷积引导跨模态融合特征进行解码以得到更加准确的显著图.通过在6个公开基准数据集上与25种主流方法相比较,本文所提模型在多个指标上均有较明显的提升,从而证明了本文方法的有效性. 展开更多
关键词 显著性目标检测 跨模态融合 边界特征 可变形卷积 显著图
在线阅读 下载PDF
高级语义修复策略的跨模态融合RGB-D显著性检测
2
作者 石玉诚 吴云 龙慧云 《计算机科学与探索》 CSCD 北大核心 2023年第1期140-153,共14页
针对显著区域定位不完整以及边缘模糊问题,提出一种RGB-D显著性目标检测方法。该方法首先设计了一个跨模态特征融合模块来逐层融合RGB和Depth信息,并得到六个模态融合特征输出。该模块降低了RGB和Depth信息之间存在的差异性,为后续的高... 针对显著区域定位不完整以及边缘模糊问题,提出一种RGB-D显著性目标检测方法。该方法首先设计了一个跨模态特征融合模块来逐层融合RGB和Depth信息,并得到六个模态融合特征输出。该模块降低了RGB和Depth信息之间存在的差异性,为后续的高级语义修复提供更具共性和互补性的深层特征;基于上述模块获得的多层次信息,利用后三层特征,联合提取更丰富的高级语义信息,并得到初始显著图。之后,采用UNet的网络结构,从网络的顶层向下融合,每一层经过上采样之后与下一层进行通道维度上的融合,前三层底层特征在融合前后采用高级语义特征进行指导,以完成对底层特征的修复。最后,得到最终的显著图。提出的跨模态特征融合模块能够自适应地融合多模态特征,突出融合特征的共性和互补性,降低融合的模糊度。提出的高级语义修复策略有助于准确检测出显著区域并提高边缘清晰度。实验结果表明,该算法在NJU2K、NLPR、STERE、DES、SIP五个数据集上均超过大部分优秀的方法,达到了较为先进的性能。 展开更多
关键词 RGB-D 显著性目标检测 跨模态融合 高级语义修复
在线阅读 下载PDF
基于注意机制和多尺度跨模态融合的RGB-D显著性检测
3
作者 崔志强 冯正勇 +1 位作者 王峰 刘强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第6期893-902,共10页
针对基于深度卷积神经网络的RGB-D显著性检测性能差等问题,提出利用注意机制和多尺度跨模态融合进行RGB-D显著性检测的方法.首先采用多尺度残差注意模块对骨干网络提取的特征进行预处理;然后提出多尺度跨模态融合策略,对高层RGB特征和... 针对基于深度卷积神经网络的RGB-D显著性检测性能差等问题,提出利用注意机制和多尺度跨模态融合进行RGB-D显著性检测的方法.首先采用多尺度残差注意模块对骨干网络提取的特征进行预处理;然后提出多尺度跨模态融合策略,对高层RGB特征和深度特征进行融合,获得初始显著图;最后采用边界细化模块细化初始显著图中目标的边界,使最终显著图包含敏锐的边界和完整的突出目标.在5个基准数据集上与10种先进方法进行实验的结果表明,所提方法在4个评价指标上均处于前3名;尤其是在NJUD和SIP数据集上,该方法在4个指标上提升了0.5%~1.5%. 展开更多
关键词 图像处理 显著性检测 注意机制 多尺度跨模态融合
在线阅读 下载PDF
基于混合特征提取与跨模态特征预测融合的情感识别模型
4
作者 李牧 杨宇恒 柯熙政 《计算机应用》 CSCD 北大核心 2024年第1期86-93,共8页
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合... 为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本−语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI(CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83、2.64和3.05个百分点,验证了该模型情感识别的有效性。 展开更多
关键词 特征提取 模态融合 情感识别 跨模态融合 注意力机制
在线阅读 下载PDF
基于跨模态特征融合的RGB-D显著性目标检测
5
作者 李可新 何丽 +1 位作者 刘哲凝 钟润豪 《国外电子测量技术》 2024年第6期59-67,共9页
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标... RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。 展开更多
关键词 RGB-D显著性目标检测 跨模态融合网络 模态特征融合 模态聚合
在线阅读 下载PDF
基于跨模态注意力融合的煤炭异物检测方法 被引量:1
6
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 模态注意力融合 Depth图像 坐标注意力 改进空间注意力
在线阅读 下载PDF
基于跨模态特征融合的RGB-D花椒图像显著性检测
7
作者 李节 孙成龙 +2 位作者 王逸涵 杨前 李柏林 《机械制造与自动化》 2024年第6期211-217,共7页
针对现有显著性检测模型无法有效地协同花椒枝干彩色图像和深度图像特征,建立基于注意力的RGB-D图像花椒枝干显著性检测模型。由两个单流卷积网络分别提取彩色和深度图像特征;设计基于空间和通道注意力机制的跨模态融合模块,用于融合多... 针对现有显著性检测模型无法有效地协同花椒枝干彩色图像和深度图像特征,建立基于注意力的RGB-D图像花椒枝干显著性检测模型。由两个单流卷积网络分别提取彩色和深度图像特征;设计基于空间和通道注意力机制的跨模态融合模块,用于融合多尺度的彩色流和深度流特征;研发多尺度监督机制,用于缓解由于采用最近邻域上采样的解码方式导致边缘预测不准确的问题。实验结果表明:该方法的平均精确度、平均召回率、综合评价指标和平均绝对误差均优于对比显著性目标检测方法。 展开更多
关键词 花椒自动化采摘 图像处理 RGB-D显著性目标检测 跨模态融合 注意力机制 多尺寸监督
在线阅读 下载PDF
基于多尺度跨模态特征融合的图文情感分类模型
8
作者 刘倩 白志豪 +1 位作者 程春玲 归耀城 《计算机科学》 CSCD 北大核心 2024年第9期258-264,共7页
图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于... 图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于多尺度跨模态特征融合的图文情感分类方法。局部尺度方面,基于跨模态注意力机制进行局部特征融合,使模型不仅关注图像和文本的独有信息,而且可以发现图像和文本之间的联系和共有信息。全局尺度方面,基于MLM损失进行全局特征融合,使模型对图像和文本数据进行全局建模,进一步挖掘图像和文本之间的联系,从而促进图像和文本特征的深度融合。在两个公开数据集MVSA-Single和MVSA-Multiple上与10个基线模型进行对比实验,结果表明所提方法在精度、F1值和模型参数量方面均具有明显优势,验证了其有效性。 展开更多
关键词 图文情感分类 模态特征融合 Transformer模型 注意力机制 MLM损失
在线阅读 下载PDF
基于多层跨模态注意力融合的图文情感分析 被引量:5
9
作者 陈巧红 孙佳锦 +1 位作者 孙麒 贾宇波 《浙江理工大学学报(自然科学版)》 2022年第1期85-94,共10页
针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷... 针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷积,以获取不同层次的图像特征,并使用BERT词嵌入与双向门控循环网络(Gated recurrent unit, GRU)网络获取文本情感特征;然后将提取后的多层图像特征与文本特征进行注意力融合,得到多组单层文本-图像注意力融合特征,并将其通过注意力网络分配权重;最后将得到的多层文本-图像注意力融合特征输入全连接层,得到分类结果。在公开的MVSA和Memotion-7k数据集上进行实验,结果显示:与图文情感分析基线模型相比,基于多层跨模态注意力融合的图文情感分析模型的准确率和F1值在MVSA数据集上分别提升2.61%和3.56%,在Memotion-7k数据集上分别提升3.25%和3.63%。这表明该模型能够有效提高图文情感分类性能。 展开更多
关键词 图文情感分析 门控循环网络 注意力机制 跨模态融合 多层图像特征抽取
在线阅读 下载PDF
基于多模态自适应融合的短视频虚假新闻检测
10
作者 朱枫 张廷辉 +1 位作者 李鹏 徐鹤 《计算机科学》 CSCD 北大核心 2024年第11期39-46,共8页
随着互联网和社交媒体的迅速发展,新闻的传播途径不再局限于传统的媒体渠道。语义丰富的多模态数据成为新闻的载体,虚假新闻也随之得到了广泛的传播。由于虚假新闻的泛滥会对个人以及社会产生难以预估的影响,针对虚假新闻的检测已经成... 随着互联网和社交媒体的迅速发展,新闻的传播途径不再局限于传统的媒体渠道。语义丰富的多模态数据成为新闻的载体,虚假新闻也随之得到了广泛的传播。由于虚假新闻的泛滥会对个人以及社会产生难以预估的影响,针对虚假新闻的检测已经成为目前的研究热点。现有的多模态虚假新闻检测方法仅针对文本和图像数据,无法充分利用短视频中的多模态信息,且忽略了不同模态间的一致性和差异性特征,难以充分发挥多种模态融合的优势。为解决该问题,提出一种基于多模态自适应融合的短视频虚假新闻检测模型。首先对短视频中多模态数据进行特征提取,采用跨模态对齐融合获取不同模态间的一致性和互补性特征;然后根据不同模态特征对最终融合结果的贡献实现自适应融合;最后利用分类器实现虚假新闻检测。在公开的短视频数据集上的实验结果表明,该模型的准确率、精确率、召回率和F1分数都高于当前的先进基线模型。 展开更多
关键词 虚假新闻检测 模态 短视频 跨模态融合 自适应融合
在线阅读 下载PDF
基于自注意力模态融合网络的跨模态行人再识别方法研究 被引量:7
11
作者 杜鹏 宋永红 张鑫瑶 《自动化学报》 EI CAS CSCD 北大核心 2022年第6期1457-1468,共12页
行人再识别是实现多目标跨摄像头跟踪的核心技术,该技术能够广泛应用于安防、智能视频监控、刑事侦查等领域.一般的行人再识别问题面临的挑战包括摄像机的低分辨率、行人姿态变化、光照变化、行人检测误差、遮挡等.跨模态行人再识别相... 行人再识别是实现多目标跨摄像头跟踪的核心技术,该技术能够广泛应用于安防、智能视频监控、刑事侦查等领域.一般的行人再识别问题面临的挑战包括摄像机的低分辨率、行人姿态变化、光照变化、行人检测误差、遮挡等.跨模态行人再识别相比于一般的行人再识别问题增加了相同行人不同模态的变化.针对跨模态行人再识别中存在的模态变化问题,本文提出了一种自注意力模态融合网络.首先是利用CycleGAN生成跨模态图像.在得到了跨模态图像后利用跨模态学习网络同时学习两种模态图像特征,对于原始数据集中的图像利用SoftMax损失进行有监督的训练,对生成的跨模态图像利用LSR (Label smooth regularization)损失进行有监督的训练.之后,使用自注意力模块将原始图像和CycleGAN生成的图像进行区分,自动地对跨模态学习网络的特征在通道层面进行筛选.最后利用模态融合模块将两种筛选后的特征进行融合.通过在跨模态数据集SYSU-MM01上的实验证明了本文提出的方法和跨模态行人再识别其他方法相比有一定程度的性能提升. 展开更多
关键词 模态行人再识别 自注意力 跨模态融合 CycleGAN
在线阅读 下载PDF
基于跨模态特征融合的RGB-D显著性目标检测 被引量:4
12
作者 陈正 赵晓丽 +3 位作者 张佳颖 尹明臣 叶翰辰 周浩军 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第11期1688-1697,共10页
为了解决基于彩色图像的显著性检测在多目标或小目标等场景下无法准确检测出显著目标的问题,提出了一种基于RGB-D跨模态特征融合的显著性检测网络模型,该网络模型以改进的全卷积神经网络(FCN)为双流主干网络,分别提取彩色与深度特征并... 为了解决基于彩色图像的显著性检测在多目标或小目标等场景下无法准确检测出显著目标的问题,提出了一种基于RGB-D跨模态特征融合的显著性检测网络模型,该网络模型以改进的全卷积神经网络(FCN)为双流主干网络,分别提取彩色与深度特征并作出预测,最后利用Inception结构融合生成最终显著图.针对原FCN实际感受野远低于理论感受野,没有真正利用图像全局信息的问题,设计了双分支结构的全局与局部特征提取块,利用全局特征分支提取全局信息并指导局部特征提取,并以此构建了改进的FCN.此外,考虑到不同层级上彩色与深度特征之间的差异性,提出了跨模态特征融合模块,采用点积有选择性地融合彩色和深度特征,与加法和级联相比,采用点乘可以有效减少噪声与冗余信息.通过在3个公开基准数据集上与21种主流网络相比的综合实验表明,所提模型在S值、F值和MAE这3个指标上基本处于前3水平,同时对模型大小进行了比较,其大小仅为MMCI的4.7%,与现有最小模型A2dele相比减少了22.8%. 展开更多
关键词 RGB-D显著性目标检测 双分支特征 跨模态融合
在线阅读 下载PDF
跨模态数据融合综述 被引量:6
13
作者 祁铧颖 贺萍 《软件工程》 2022年第10期1-7,共7页
大数据时代下,人们热衷于在社交媒体上以图文等结合的方式发布状态数据。为了更好地整合海量社交媒体数据,首先,介绍了单模态、多模态、跨模态数据融合的最新研究进展,并在此基础上比较其优势与存在的问题;其次,在跨模态应用方面,对跨... 大数据时代下,人们热衷于在社交媒体上以图文等结合的方式发布状态数据。为了更好地整合海量社交媒体数据,首先,介绍了单模态、多模态、跨模态数据融合的最新研究进展,并在此基础上比较其优势与存在的问题;其次,在跨模态应用方面,对跨模态图文检索、跨模态推荐系统、跨模态情感分析、跨模态人机对话系统及其目前存在的问题进行了分析与总结;最后,得出跨模态数据融合能够实现数据合理有效利用的结论,并提出对跨模态数据融合未来发展的展望。 展开更多
关键词 模态融合 模态融合 跨模态融合 深度学习
在线阅读 下载PDF
基于跨模态注意力的目标语音提取
14
作者 杨明强 卢健 《计算机工程》 CAS CSCD 北大核心 2024年第9期121-129,共9页
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进... 目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。 展开更多
关键词 目标语音提取 跨模态融合 自注意力 时间卷积网络 门控循环单元
在线阅读 下载PDF
基于物联网技术的跨模态图像修改方法研究
15
作者 陈严 《电视技术》 2024年第11期17-19,共3页
探讨基于物联网技术的跨模态图像修改方法。通过部署多模态传感器采集场景数据,利用深度学习和注意力机制进行跨模态融合,引入上下文感知机制实现智能图像编辑。实验结果表明,所提方法在修改质量和语义一致性方面均优于基线方法,同时保... 探讨基于物联网技术的跨模态图像修改方法。通过部署多模态传感器采集场景数据,利用深度学习和注意力机制进行跨模态融合,引入上下文感知机制实现智能图像编辑。实验结果表明,所提方法在修改质量和语义一致性方面均优于基线方法,同时保持了较高的计算效率。 展开更多
关键词 物联网技术 跨模态融合 图像修改
在线阅读 下载PDF
面向跨模态检索的查询感知双重对比学习网络 被引量:2
16
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 模态语义融合 模态检索 视频时刻定位 对比学习
在线阅读 下载PDF
基于推文传播模式与跨模态特征的网络谣言检测研究 被引量:1
17
作者 彭竞杰 顾益军 张岚泽 《情报杂志》 CSSCI 北大核心 2024年第8期124-134,58,共12页
[研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖... [研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖掘方面,首先通过推断潜在连接补全推文传播图,接着采用双向标签图注意力模块编码推文的多个传播模式,然后通过传播模式信息融合模块捕获模式特征间的互补信息,得到帖子的传播特征;在整合多模态特征方面,该模型将帖子的文本、图像和推文传播特征集成在一起,采用跨模态共同注意力机制捕捉不同模态信息间的互补关系,得到帖子的最终嵌入表示,判断是否是谣言。[研究结论]在两个公开数据集上的实验结果表明,PPCMRD模型能够有效地检测谣言,并优于当前的基线模型。 展开更多
关键词 网络谣言 谣言检测 网络谣言检测模型 推文传播模式信息 模态特征融合
在线阅读 下载PDF
基于深度跨模态信息融合网络的股票走势预测 被引量:2
18
作者 程海阳 张建新 +2 位作者 孙启森 张强 魏小鹏 《计算机科学》 CSCD 北大核心 2023年第5期128-136,共9页
股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动... 股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动态规律,在一定程度上限制了方法的性能。为此,将社交媒体文本与股票历史价格信息相结合,提出了一种基于深度跨模态信息融合网络(DCIFNet)的股票走势预测新方法。DCIFNet首先采用时间卷积操作对股票价格和推特文本进行编码,使得每个元素对其邻域元素都有足够的了解;然后,将结果输入到基于transformer的跨模态融合结构中,以更有效地融合股票价格和推特文本中的重要信息;最后,引入多图卷积注意力网络从不同角度描述不同股票之间的相互关系,能够更有效地捕获关联股票间的行业、维基和相关关系,从而提升股票走势预测的精度。在9个不同行业的高频交易数据集上实施走势预测和模拟交易实验。消融实验及所提方法与用于股票预测的多管齐下的注意力网络(MAN-SF)方法的比较结果验证了DCIFNet方法的有效性,准确率达到了0.6309,明显优于领域内代表性方法。 展开更多
关键词 股票走势预测 社交媒体文本 模态信息融合 图卷积网络 时间卷积
在线阅读 下载PDF
注意力感知特征提取和融合的多模态人脸防伪检测方法
19
作者 刘苏 何岱蔚 +3 位作者 黄颖 万邦睿 刘学 郑钧予 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第5期1032-1041,共10页
针对多模态人脸防伪检测中如何有效融合多模态信息的问题,提出一种注意力感知特征提取和融合的多模态人脸防伪检测方法(attention-aware feature extraction and fusion,AFEF)。在跨模态特征融合部分利用通道和空间注意力机制探索不同... 针对多模态人脸防伪检测中如何有效融合多模态信息的问题,提出一种注意力感知特征提取和融合的多模态人脸防伪检测方法(attention-aware feature extraction and fusion,AFEF)。在跨模态特征融合部分利用通道和空间注意力机制探索不同模态之间的互补信息,以弥补单一模态特征表达不足的问题;利用卷积融合方式融合多模态特征,以避免信息覆盖或者无关信息强化的问题;在特征提取部分引入CBAM注意力机制,获得更细粒度的各模态特征表示,便于后续进行跨模态特征融合。实验结果表明,与当前其他主流多模态人脸防伪算法相比,提出的方法在CASIA-SURF和CeFA两个多模态数据集上的平均分类错误率(average classification error rate,ACER)均最低,算法有效。 展开更多
关键词 人脸防伪 模态 模态特征融合 通道和空间注意力
在线阅读 下载PDF
双级交互式自适应融合的多模态神经机器翻译
20
作者 杜连成 郭军军 +1 位作者 叶俊杰 余正涛 《计算机工程与科学》 CSCD 北大核心 2024年第11期2071-2080,共10页
多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部... 多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部关系的探索,导致视觉信息的利用率较低,无法充分利用图像所包含的全部语义信息。因此,提出了一种双级交互式自适应融合的多模态神经机器翻译方法,该方法考虑了图像不同方面的属性特征,以充分利用图像的视觉信息。实验结果显示,该方法能够有效地利用图像所具有的视觉信息,并且在Multi30K数据集的英语→德语(EN→DE)和英语→法语(EN→FR)2种翻译任务的测试上的效果显著优于当前大多数的效果最优(SOTA)多模态神经机器翻译方法的结果,十分具有竞争力。 展开更多
关键词 模态神经机器翻译 双视觉特征交互 图-文模态自适应融合
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部