期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
基于SEFusion-MPOR的多模态特征融合舆情表征算法
1
作者 郭小宇 马静 《情报理论与实践》 CSSCI 北大核心 2024年第7期181-189,共9页
[目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR... [目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR算法在预训练模型特征的基础上,通过全连接层、门控机制与激活函数构建了压缩与激活算子,获取各模态的动态权重,使用矩阵相乘将动态权重作用于相应模态,进而构建了多模态特征融合的网络舆情表征算法。[结果/结论]在Memotion 3与MVSA-multiple两个公开的多模态舆情数据集上进行实验,与基线模型的对比表明,文章提出的表征方法在多个子任务中取得了最优结果。该方法仅通过简单操作,就达到了复杂表征算法的效果,且具有可解释性与外推性。其高效和准确的表征方法不仅适用于舆情情报处理,也适合情报分析工作中的通用多模态信息基础表征。[局限]研究验证仅限于双模态数据集,未涉及更广泛模态的数据集。 展开更多
关键词 多模态舆情 多模态特征融合 舆情表征 预训练模型 SEFusion-MPOR
在线阅读 下载PDF
基于多模态特征融合的旅游体验质量反馈系统设计
2
作者 文斌 胡辉 《通讯世界》 2024年第9期184-186,共3页
针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的... 针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的旅游体验质量反馈系统,主要包括数据采集层、数据传输层、数据处理层和用户交互层,在此基础上,通过硬件和软件实现旅游体验质量反馈。与单一模态方法相比,该系统能够更准确地评价旅游体验质量,及时提供有价值的反馈信息,体现了多模态融合的优势。 展开更多
关键词 多模态特征融合 人工智能 旅游体验 系统设计
在线阅读 下载PDF
结合YOLOv8和多模态特征融合的3D目标检测算法
3
作者 张李辉 刘紫燕 《国外电子测量技术》 2024年第12期91-98,共8页
针对点云与图像的空间维度不同导致多模态特征难以对齐的问题,提出融合YOLOv8的多模态3D目标检测网络。首先,设计基于YOLOv8的数据增强模块将图像映射到三维空间,生成与点云对齐的伪云,并使用冻结权重的YOLOv8增强点云和伪云。然后,构... 针对点云与图像的空间维度不同导致多模态特征难以对齐的问题,提出融合YOLOv8的多模态3D目标检测网络。首先,设计基于YOLOv8的数据增强模块将图像映射到三维空间,生成与点云对齐的伪云,并使用冻结权重的YOLOv8增强点云和伪云。然后,构建双流编码器并行提取多模态特征。最后,设计基于注意力机制的感兴趣区域(region of interest,RoI)特征融合模块和基于门控的RoI特征融合模块来聚合多模态RoI特征。在KITTI验证集上,提出的算法在困难级别对汽车、行人和骑行者的3D平均精度分别达到79.28%、58.70%和76.04%,较原始算法分别提高0.62%、3.07%和7.54%,验证了算法的有效性。 展开更多
关键词 3D目标检测 多模态特征融合 YOLOv8 注意力机制
在线阅读 下载PDF
多模态特征融合与多任务学习的特种视频分类 被引量:6
4
作者 吴晓雨 顾超男 王生进 《光学精密工程》 EI CAS CSCD 北大核心 2020年第5期1177-1186,共10页
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种... 特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。 展开更多
关键词 特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习
在线阅读 下载PDF
基于多模态特征融合的行人穿越意图预测方法
5
作者 陈龙 杨晨 +2 位作者 蔡英凤 王海 李祎承 《汽车工程》 EI CSCD 北大核心 2023年第10期1779-1790,共12页
行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提... 行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力,并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系,解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外,本文设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明,所提出方法的预测Accuracy为0.84,较基线方法提升了10.5%,相比于现有的同类型模型,所提出方法的综合性能最佳,且具有更广泛的应用场景。 展开更多
关键词 自动驾驶汽车 行人意图预测 多模态特征融合 注意力机制
在线阅读 下载PDF
基于多模态特征融合嵌入的相似广告检索方法 被引量:3
6
作者 冯奕 周晓松 +5 位作者 李传艺 王挺 葛季栋 胡雨成 张小鹏 骆斌 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1500-1516,共17页
随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非... 随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.这个分类器的优劣依赖广告的实际转化人群规模,规模越大,越能准确判断.但在实际应用中通常面临某些广告转化人群不足的问题,本文利用在学术与工业场景占据重要研究地位的基于内容的检索技术来扩充相似广告集合,从而扩充对应转化人群.现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.为解决这些问题,本文提出一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,以提升相似广告检索的效果.具体来说,本文使用Transformer模型提取文本语义特征,使用目标检测YOLO模型挖掘图像中细粒度的视觉特征,并结合文本注意力机制识别图像中与商品相关的目标,以降低无关目标给广告特征带来的噪声影响.同时,本文提出了一种多模态融合注意力机制,以高效融合广告文本和图像特征.该模型命名为ToTYEmb(Text oriented Transformer-Yolo fusion Embedding).另外,本文还提出了一种算法框架,将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中.实验结果表明,较多个基线模型,本文方案有效提升了相似商品广告的检索质量,避免了很多由单模态信息带来的错误.同时离线人群定向更新实验表明本文提出的利用相似广告扩充转化人群确实能在很大程度上优化现有的人群智能定向算法. 展开更多
关键词 多模态特征融合 相似广告检索 TRANSFORMER 注意力机制
在线阅读 下载PDF
基于多模态特征融合的轻量级人脸活体检测方法 被引量:7
7
作者 皮家甜 杨杰之 +5 位作者 杨琳希 彭明杰 邓雄 赵立军 唐万梅 吴至友 《计算机应用》 CSCD 北大核心 2020年第12期3658-3665,共8页
人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融... 人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融合的轻量级活体检测网络,将深度图与RGB图的特征融合起来并且进行端到端的训练。而为了解决深度学习中参数量较大以及网络尾部对于权重区域的区分的问题,提出在网络尾部采用Streaming Module以减少网络参数量并且对权重区域进行区分。在CASIA-SURF数据集以及所制作的CQNU-LN数据集上进行仿真实验,结果表明所提方法在两个数据集上均于TPR@FPR=10E-4的级别上达到了95%的精度,相较对比方法中精度最高的ShuffleNet分别提高了0.1%和0.05%;在所制作的CQNU-3Dmask数据集上,所提方法于TPR@FPR=10E-4的级别达到了95.2%的精度,比仅训练RGB图或仅训练深度图的方法分别提升了0.9%和6.5%,并且,模型的参数文件的大小仅为1.8 MB,每秒浮点数运算量(FLOPs)仅为1.5×10^6。该方法能够在实际应用中对提取到的人脸进行准确的实时检测。 展开更多
关键词 计算机视觉 卷积神经网络 人脸活体检测 多模态特征融合 轻量级网络
在线阅读 下载PDF
多模态特征融合的长视频行为识别方法 被引量:4
8
作者 王婷 刘光辉 +2 位作者 张钰敏 孟月波 徐胜军 《计算机测量与控制》 2021年第11期165-170,175,共7页
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为... 行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性。 展开更多
关键词 深度学习 行为识别 特征提取 多模态特征融合
在线阅读 下载PDF
基于注意力机制和多模态特征融合的猕猴脑磁共振图像全脑分割 被引量:2
9
作者 吴雪扬 张煜 +1 位作者 张华 钟涛 《南方医科大学学报》 CAS CSCD 北大核心 2023年第12期2118-2125,共8页
目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特... 目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特点,采用多编码器结构分别适应不同模态并进行特征提取。在解码器部分引入注意力机制构建多模态特征融合模块(AMFF),利用模态间信息丰富且互补的特点,充分融合不同尺度和复杂度的多模态特征,进而提升分割性能。另外,进行消融实验分析并对结果进行统计学检验。结果多编码器结构以及注意力机制的引入能够有效地提升模型对多模态特征的融合能力,使得猕猴数据的全脑分割平均DSC达到0.904,ASD低至0.131(P<0.05)。消融实验结果验证了DDAM方法各组成部分的有效性。结论本文针对多模态数据特点构建深度学习算法模型,提出的DDAM方法,能够更有效地提取并融合多模态特征,从而实现全脑分割精度的显著提高。 展开更多
关键词 猕猴大脑 磁共振全脑分割 深度学习 注意力机制 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合的自主驾驶车辆低辨识目标检测方法 被引量:8
10
作者 邹伟 殷国栋 +4 位作者 刘昊吉 耿可可 黄文涵 吴愿 薛宏伟 《中国机械工程》 EI CAS CSCD 北大核心 2021年第9期1114-1125,共12页
针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(... 针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(3种)图像低辨识度目标实时检测系统,探索多模态图像特征融合在自动驾驶智能感知系统中的应用。建立了人工标注过的多模态(3种)图像低辨识目标数据集,对深度学习神经网络进行训练,优化内部参数,使得该系统适用于复杂环境下对行人、车辆目标的检测和识别。实验结果表明,相对于传统的单模态目标检测算法,基于多模态特征融合的深度卷积神经网络对复杂环境下的低辨识目标具有更好的检测和识别性能。 展开更多
关键词 自主驾驶 多模态特征融合 深度卷积神经网络 低辨识目标 智能感知
在线阅读 下载PDF
基于多模态特征融合的井下人员不安全行为识别 被引量:12
11
作者 王宇 于春华 +1 位作者 陈晓青 宋家威 《工矿自动化》 CSCD 北大核心 2023年第11期138-144,共7页
采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了... 采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了一种基于多模态特征融合的井下人员不安全行为识别方法。通过SlowOnly网络对RGB模态特征进行提取;使用YOLOX与Lite-HRNet网络获取骨骼模态数据,采用PoseC3D网络对骨骼模态特征进行提取;对RGB模态特征与骨骼模态特征进行早期融合与晚期融合,最后得到井下人员不安全行为识别结果。在X-Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D拥有比GCN(图卷积网络)类方法更高的识别准确率,达到93.1%;基于多模态特征融合的行为识别模型对比基于单一骨骼模态的识别模型拥有更高的识别准确率,达到95.4%。在自制井下不安全行为数据集上的实验结果表明:基于多模态特征融合的行为识别模型在井下复杂环境下识别准确率仍最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。 展开更多
关键词 智能矿山 行为识别 目标检测 姿态估计 多模态特征融合 RGB模态 骨骼模态 YOLOX
在线阅读 下载PDF
基于多模态特征融合的人脸物理对抗样本性能预测算法
12
作者 周风帆 凌贺飞 +3 位作者 张锦元 夏紫薇 史宇轩 李平 《计算机科学》 CSCD 北大核心 2023年第8期280-285,共6页
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种... 人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。为了减少人脸物理对抗样本性能评测方面的工作量,结合数字图片和环境因素之间的多模态性,提出了多模态特征融合预测算法(Multimodal Feature Fusion Prediction Algorithm,MFFP)。具体地,使用不同的网络提取攻击者人脸图片、受害者人脸图片和人脸数字对抗样本图片的特征,使用环境特征网络来提取环境因素中的特征,然后使用一个多模态特征融合网络对这些特征进行融合,多模态特征融合网络的输出即为所预测的人脸物理对抗样本图片和受害者图片之间的余弦相似度。MFFP算法在未知环境、未知FPAA算法的实验场景下取得了0.003的回归均方误差,其性能优于对比算法,验证了MFFP算法对FPAA性能预测的准确性,可以对FPAA性能进行快速评估,同时大幅降低人工操作的工作量。 展开更多
关键词 人工智能安全 对抗样本 人脸物理对抗样本攻击 性能预测 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合的个性化视频推荐方法 被引量:2
13
作者 谭晓 孙全明 曲志坚 《智能计算机与应用》 2020年第12期209-213,共5页
为了充分利用用户历史行为数据的结构化特征,提高视频个性化推荐效果,本文提出了一种基于多模态特征融合的视频个性化推荐方法。通过Word2Vec提取视频的词向量特征,并将视频数据从高维空间映射到低维稠密空间;提取视频图像特征以及文本... 为了充分利用用户历史行为数据的结构化特征,提高视频个性化推荐效果,本文提出了一种基于多模态特征融合的视频个性化推荐方法。通过Word2Vec提取视频的词向量特征,并将视频数据从高维空间映射到低维稠密空间;提取视频图像特征以及文本特征并与结构化特征进行融合,共同完成视频推荐任务。通过融合LightGBM和DeepFM构建推荐模型,该融合模型既具有在连续特征上的学习能力,也拥有高阶特征组合的泛化能力。该方法能够更好的挖掘用户偏好,提高模型推荐的准确性。 展开更多
关键词 多模态特征融合 视频推荐 词向量 用户偏好
在线阅读 下载PDF
基于多模态特征融合的动态视频摘要算法
14
作者 乾竞元 高伟 滕国伟 《工业控制计算机》 2022年第10期81-84,共4页
技术可以从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要,在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题,提出了一... 技术可以从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要,在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题,提出了一种基于多模态特征融合的动态视频摘要算法(MFFSN),采用了有监督的编码器-解码器的网络框架。在编码端通过深度神经网络提取原始视频帧的多尺度空间特征和光流图像的多尺度运动特征,利用运动引导注意力模块(Motion Guided Attention,MGA)进行时空注意力建模,对空间特征和运动特征进行有机融合得到多模态特征;在解码阶段,采用自注意力机制关注数据中的显著特征,再通过回归网络得到帧重要性分数;最后根据背包算法选择关键镜头生成动态摘要。在Sum Me基准数据集上的实验结果证明提出的MFFSN摘要算法优于现有的同类视频摘要算法。 展开更多
关键词 视频摘要 多模态特征融合 光流 注意力机制
在线阅读 下载PDF
多模态特征融合的网络安全态势评估
15
作者 黄辉 《数码设计》 2021年第10期188-189,共2页
近年来,我国各行各业的建设发展迅速。随着互联网技术的迅速普及,隐私泄露和信息安全事故频繁发生,网络安全隐患逐渐凸显。在此背景下,国内外研究人员提出了多种安全防护措施,如物理分析、网络结构分析、系统安全分析和网络安全态势感知... 近年来,我国各行各业的建设发展迅速。随着互联网技术的迅速普及,隐私泄露和信息安全事故频繁发生,网络安全隐患逐渐凸显。在此背景下,国内外研究人员提出了多种安全防护措施,如物理分析、网络结构分析、系统安全分析和网络安全态势感知(NSSA)等。NSSA技术首先用于模拟战场上的交战各方,然后据此规划战略和战术。 展开更多
关键词 多模态特征融合 网络安全态势评估 安全防护措施
在线阅读 下载PDF
多模态分级特征映射与融合表征方法研究
16
作者 郭小宇 马静 陈杰 《计算机工程与应用》 北大核心 2025年第6期171-182,共12页
多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型... 多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型的中间层抽取由低级别到高级别的特征,基于特征重用的思想映射与融合文本与图像模态不同级别的特征,捕捉文本与图像模态之间的内部关联,充分融合两种模态之间的特征。将分级特征映射与融合表征馈入分类器,应用于多模态舆情的情感分类中,同时将构建的表征方法与基线表征方法进行对比分析。实验结果表明,提出的表征方法在微博舆情和MVSA-Multiple数据集上的情感分类性能均超越了所有基线模型,其中在微博数据集上F1值提升了0.0137,在MVSA-Multiple数据集上F1值提升了0.0222。图像特征能够提升文本单模态特征下的情感分类准确率,但是其提升程度与融合策略密切相关;多模态分级特征映射与融合表征方法能够有效映射文本与图像特征之间的关系,提升多模态舆情的情感分类效果。 展开更多
关键词 多模态特征融合 分级特征 映射与融合 情感分类 特征表示
在线阅读 下载PDF
多模态特征增强的双层融合知识推理方法
17
作者 荆博祥 王海荣 +1 位作者 王彤 杨振业 《计算机科学与探索》 北大核心 2025年第2期406-416,共11页
现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自... 现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自适应图注意力机制筛选并聚合关键的邻居信息,用来增强实体和关系嵌入的语义表达;多模态嵌入信息模块使用不同的注意力机制关注不同模态数据的独有特征,以及多模态数据间的共性特征,利用共性特征的互补信息进行模态交互,以减少模态间异构性差异;多模态特征融合模块采用将低秩多模态特征融合和决策融合相结合的双层融合策略,实现了多模态数据在模态间和模态内的动态复杂交互,并综合考虑每种模态在推理中的贡献度,得到更全面的预测结果。为了验证方法的有效性,分别在FB15K-237、DB15K和YAGO15K数据集上进行了实验。结果表明:该方法相比多模态推理方法,在FB15K-237数据集上MRR和Hits@1分别平均提升3.6%和2.2%;相比单模态推理方法,MRR和Hits@1分别平均提升13.7%和14.6%。 展开更多
关键词 多模态知识图谱 链接预测 知识推理 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合的高血压危险分层预测与评估
18
作者 翁雯浩 杨晶东 +3 位作者 罗晓烽 李琳 王斯曼 燕海霞 《建模与仿真》 2025年第2期506-520,共15页
机器学习应用于高血压危险分层预测,经常由于特征提取困难且异常值多、模型调优成本高,而导致模型预测精度低、泛化性能差。本文提出了一种多模态融合模型。该模型构建了多长短期记忆网络串联结构,实现无超参数的脉搏波特征提取,降低特... 机器学习应用于高血压危险分层预测,经常由于特征提取困难且异常值多、模型调优成本高,而导致模型预测精度低、泛化性能差。本文提出了一种多模态融合模型。该模型构建了多长短期记忆网络串联结构,实现无超参数的脉搏波特征提取,降低特征提取成本,提高特征区分度。使用三种不同的机器学习方法分别对脉搏波、理化、证素特征进行分类,采用基于树结构估计的贝叶斯优化算法,动态优化各机器学习模型超参数,降低超参数优化成本。采用DS证据理论冲突消解策略,减少各模型预测冲突,实现多模态特征决策级融合。本文采用上海中医药大学附属中西医结合医院体检中心等医院提供的临床数据。5-Fold交叉验证后分类模型评估指标F1-score、Accuracy、Recall、Specificity、AUC值分别为:89.1%、90.9%、89.3%、94.9%、97.7%。与典型模型相比,本文方法具有较高的分类精度和泛化性能。此外,本文分别基于最近邻、支持向量机、极限梯度提升树算法,研究了脉搏波脉图特征与高血压危险分层的相关性,深入挖掘潜在的风险因素,为高血压临床诊断提供有效参考。 展开更多
关键词 高血压危险分层 多模态特征融合 长短期记忆网络 DS证据理论 树形结构的贝叶斯优化
原文传递
一种多尺度特征融合的多模态三维点云配准模型 被引量:1
19
作者 韩建栋 李晓蕊 《微电子学与计算机》 2024年第11期31-38,共8页
针对三维点云配准中现有描述符提取方法可能导致点云结构信息不显著以及点云数据细节丢失的问题,提出了一种多尺度特征融合的多模态三维点云配准模型(Multi-scale Feature Fusion,MSFNet)。首先,在编码器中采用基于稀疏卷积的通道注意... 针对三维点云配准中现有描述符提取方法可能导致点云结构信息不显著以及点云数据细节丢失的问题,提出了一种多尺度特征融合的多模态三维点云配准模型(Multi-scale Feature Fusion,MSFNet)。首先,在编码器中采用基于稀疏卷积的通道注意力模块(Channel Attention Module Based On Sparse Convolution,SCCAM)使得该模型能够自适应地关注点云的特征结构;然后,利用多尺度空间点云编码结构(Multi-scale Spatial Point Cloud Encoding,MSPCE)提取并有效融合不同尺度下的点云特征,从而增加点云描述符的感受野;最后,利用多模态特征融合模块对编码器提取的点云特征与图片特征进行融合,并将其送入解码器进行监督训练,以生成最终的点云描述符。采用特征匹配召回率(Feature-Match Recall,FMR)作为评价指标,在数据集3DMatch上进行实验。实验结果表明MSFNet网络其召回率精度达到了98.4%,与IMFNet(Interpretable Multimodal Fusion)网络相比,提升了0.8%。 展开更多
关键词 三维点云配准 多尺度点云编码 注意力机制 多模态特征融合 多尺度特征融合
在线阅读 下载PDF
基于多模态数据融合的电力系统设备运行状态诊断技术研究
20
作者 汤文俊 范冰 +2 位作者 张拯民 高芳征 张弘弢 《自动化应用》 2025年第4期19-26,共8页
针对电力系统设备运行状态的传统诊断方法主要依赖于单一模态的数据,由于信息不全面、易受噪声影响、工作环境复杂多变等因素,存在诊断准确性受限、鲁棒性和可靠性缺乏、环境适应性不足等问题,提出了一种电力系统多模态数据融合分析方... 针对电力系统设备运行状态的传统诊断方法主要依赖于单一模态的数据,由于信息不全面、易受噪声影响、工作环境复杂多变等因素,存在诊断准确性受限、鲁棒性和可靠性缺乏、环境适应性不足等问题,提出了一种电力系统多模态数据融合分析方法。通过构建BC-AT-LSTM多模态模型,融合电力设备告警文本、红外图像和震动音频等模态数据提取的特征进行模型训练,旨在实现设备运行状态的精确诊断。实验结果表明,与单模态的文本、图像和音频数据模型相比,多模态数据融合模型的诊断准确率分别提高了25.2%、58.1%和68.4%,验证了该方法在设备运行状态诊断中的可行性和有效性。 展开更多
关键词 多模态特征提取与融合 BC-AT-LSTM模型 电力系统设备 运行状态诊断
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部