期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于多模态表示学习的情感分析框架 被引量:5
1
作者 胡新荣 陈志恒 +3 位作者 刘军平 彭涛 叶鹏 朱强 《计算机科学》 CSCD 北大核心 2022年第S02期631-636,共6页
在多模态表示对整体损失的学习过程中,重构损失对模型的依赖性相对较小,导致隐含表示无法有效捕捉它们各自模态的细节。文中提出了一个基于多模态表示学习的多子空间情感分析框架。首先将每个模态投射到模态不变和模态特定两种不同的话... 在多模态表示对整体损失的学习过程中,重构损失对模型的依赖性相对较小,导致隐含表示无法有效捕捉它们各自模态的细节。文中提出了一个基于多模态表示学习的多子空间情感分析框架。首先将每个模态投射到模态不变和模态特定两种不同的话语表示中,在模态不变表示中构建主共享子空间以及帮助该子空间减少模态差距的辅助共享子空间,在模态特定表示中构建私有子空间以捕获每个模态独有的特征,将所有子空间中的隐藏向量作为解码函数的输入并重构模态向量,以实现对重构损失的优化。然后,在融合阶段对每个模态表示执行基于Transformer的自注意力,使每个表示能从对整体情感取向具有协同作用的其他跨模态表示中获取潜在信息。最后,通过串联生成联合向量并利用全连接层生成任务预测。在两个公开数据集MOSI和MOSEI上的实验结果表明,该框架在大多数评价指标上都优于基线模型。 展开更多
关键词 多模态表示 情感分析 TRANSFORMER 自注意力 模态
在线阅读 下载PDF
深度多模态表示学习的研究综述 被引量:5
2
作者 潘梦竹 李千目 邱天 《计算机工程与应用》 CSCD 北大核心 2023年第2期48-64,共17页
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习... 尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 展开更多
关键词 多模态表示 深度学习 多模态融合 多模态对齐
在线阅读 下载PDF
基于语义关系的多Agent多模态表示规划
3
作者 郭元博 吴青粟 《计算机工程》 CAS CSCD 北大核心 1999年第10期12-13,16,共3页
介绍了一个用于多模态表示规划的多Agent系统。为了显示被表示对象之间的语义关系,表示规划需满足一定的约束。阐述了多Agent合作进行规划的机制,重点论述了约束的传播以及动态修改。
关键词 多模态表示 多AGENT系统 语义关系 人工智能
在线阅读 下载PDF
联合多模态表示的人脸识别方法研究 被引量:1
4
作者 张杜娟 陈飞 丁莉 《电子设计工程》 2021年第24期175-178,183,共5页
针对人脸图像识别问题,提出联合多模态表示的方法。采用二维经验模态分解(BEMD)对人脸图像进行分解,获得多层次二维内蕴模函数(BIMF),作为人脸的多模态表示。在分类阶段,采用多任务压缩感知模型(MTCS)对多层次BIMF进行表征,求解不同BIM... 针对人脸图像识别问题,提出联合多模态表示的方法。采用二维经验模态分解(BEMD)对人脸图像进行分解,获得多层次二维内蕴模函数(BIMF),作为人脸的多模态表示。在分类阶段,采用多任务压缩感知模型(MTCS)对多层次BIMF进行表征,求解不同BIMF的稀疏系数矢量,进而计算不同类别对于当前测试样本的重构误差,根据重构误差判断样本所属类别。通过在ORL和Yale-B人脸图像数据集上开展实验,所提方法平均识别率分别达到75.42%和94.07%,且对噪声干扰具有良好的稳健性。 展开更多
关键词 人脸识别 二维经验模态分解 多模态表示 多任务压缩感知
在线阅读 下载PDF
基于样本内外协同表示和自适应融合的多模态学习方法 被引量:1
5
作者 黄学坚 马廷淮 王根生 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1310-1324,共15页
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合... 多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,该多模态学习方法在多个评价指标上优于基线方法. 展开更多
关键词 多模态表示 多模态融合 多模态学习 协同表示 自适应融合
在线阅读 下载PDF
网络异常检测中的流量表示研究
6
作者 孙剑文 张斌 常禾雨 《通信学报》 北大核心 2025年第1期192-209,共18页
针对网络异常检测中流量表示存在的信息丢失问题,从数据采集粒度入手分析不同流量表示的特征信息维度对异常检测性能的影响。首先,介绍了恶意异常检测中流量表示粒度间的协同与耦合关系,以及异常检测中的流量表示、特征学习和检测三环... 针对网络异常检测中流量表示存在的信息丢失问题,从数据采集粒度入手分析不同流量表示的特征信息维度对异常检测性能的影响。首先,介绍了恶意异常检测中流量表示粒度间的协同与耦合关系,以及异常检测中的流量表示、特征学习和检测三环节间的耦合关系。然后,系统审视流量表示在网络异常检测中的发展轨迹,深入分析了流量表示形式、流量特征学习与流量表示在异常检测中的应用3个方面的国内外研究现状。最后,围绕流量表示在网络异常检测应用中协同耦合的发展趋势对未来研究进行展望。 展开更多
关键词 异常检测 网络流量 流量表示形式 特征类型 多模态流量表示
在线阅读 下载PDF
图文语义增强的多模态命名实体识别方法
7
作者 徐玺 王海荣 +1 位作者 王彤 马赫 《计算机应用研究》 CSCD 北大核心 2024年第6期1679-1685,共7页
为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以... 为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以全面描述图文数据的语义信息;采用Transformer和跨模态注意力机制,挖掘图文特征间的互补语义关系,以引导特征融合,从而生成语义补全的文本表征和语义增强的多模态表征;整合边界检测、实体类别检测和命名实体识别任务,构建了多任务标签解码器,该解码器能对输入特征进行细粒度语义解码,以提高预测特征的语义准确性;使用这个解码器对文本表征和多模态表征进行联合解码,以获得全局最优的预测标签。在Twitter-2015和Twitter-2017基准数据集的大量实验结果显示,该方法在平均F 1值上分别提升了1.00%和1.41%,表明该模型具有较强的命名实体识别能力。 展开更多
关键词 多模态命名实体识别 多模态表示 多模态融合 多任务学习 命名实体识别
在线阅读 下载PDF
多模态深度学习综述 被引量:43
8
作者 刘建伟 丁熙浩 罗雄麟 《计算机应用研究》 CSCD 北大核心 2020年第6期1601-1614,共14页
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了... 在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 展开更多
关键词 多模态 深度学习 多神经网络 多模态表示 多模态传译 多模态融合 多模态对齐
在线阅读 下载PDF
未来标准语义知识库的发展趋势
9
作者 周育忠 林正平 +2 位作者 王昕 喇元 杨宇亮 《科技与创新》 2025年第1期90-92,共3页
探讨了未来标准语义知识库的发展趋势,通过分析不同方面的研究现状,以揭示未来标准语义知识库的发展方向,为相关领域的研究和应用提供指导。系统地整理和总结了目前关于语义知识库的研究成果和现状,展示了未来标准语义知识库可能的发展... 探讨了未来标准语义知识库的发展趋势,通过分析不同方面的研究现状,以揭示未来标准语义知识库的发展方向,为相关领域的研究和应用提供指导。系统地整理和总结了目前关于语义知识库的研究成果和现状,展示了未来标准语义知识库可能的发展趋势,具体涉及多模态表示、知识融合、自动化构建和安全保障等重要发展方向。研究表明,未来标准语义知识库的发展将更加多样化和智能化,同时也将注重数据隐私和安全保障,对人工智能领域的发展产生了积极影响。 展开更多
关键词 标准语义知识库 发展趋势 多模态表示 知识融合
在线阅读 下载PDF
基于自编码器与多模态数据融合的视频推荐方法 被引量:4
10
作者 顾秋阳 琚春华 吴功兴 《电信科学》 2021年第2期82-98,共17页
现今常用的线性结构视频推荐方法存在推荐结果非个性化、精度低等问题,故开发高精度的个性化视频推荐方法迫在眉睫。提出了一种基于自编码器与多模态数据融合的视频推荐方法,对文本和视觉两种数据模态进行视频推荐。具体来说,所提方法... 现今常用的线性结构视频推荐方法存在推荐结果非个性化、精度低等问题,故开发高精度的个性化视频推荐方法迫在眉睫。提出了一种基于自编码器与多模态数据融合的视频推荐方法,对文本和视觉两种数据模态进行视频推荐。具体来说,所提方法首先使用词袋和TF-IDF方法描述文本数据,然后将所得特征与从视觉数据中提取的深层卷积描述符进行融合,使每个视频文档都获得一个多模态描述符,并利用自编码器构造低维稀疏表示。本文使用3个真实数据集对所提模型进行了实验,结果表明,与单模态推荐方法相比,所提方法推荐性能明显提升,且所提视频推荐方法的性能优于基准方法。 展开更多
关键词 自编码器 多模态表示 数据融合 视频推荐
在线阅读 下载PDF
知识驱动的多模态语义理解研究综述 被引量:1
11
作者 郑祎豪 郭奕君 +1 位作者 毋立芳 黄岩 《模式识别与人工智能》 EI CSCD 北大核心 2023年第12期1127-1138,共12页
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前... 基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势. 展开更多
关键词 机器学习 深度学习 多模态语义理解 多模态知识表示 多模态语义分析 知识驱动
在线阅读 下载PDF
Multipartite State Representations in Multi-mode Fock Space and Their Squeezing Transformations 被引量:1
12
作者 YUAN Hong-Chun LI Heng-Mei QI Kai-Guo 《Communications in Theoretical Physics》 SCIE CAS CSCD 2007年第1期31-34,共4页
We present the continuous state vector of the total coordinate of multi-partlcle and the state vector of their total momentum, respectively, which possess completeness relation in multi-mode Fock space by virtue of th... We present the continuous state vector of the total coordinate of multi-partlcle and the state vector of their total momentum, respectively, which possess completeness relation in multi-mode Fock space by virtue of the integration within an order product (IWOP) technique. We also calculate the transition from classical transformation of variables in the states to quantum unitary operator, deduce a new multi-mode squeezing operator, and discuss its squeezing effect. In progress, it indicates that the IWOP technique provides a convenient way to construct new representation in quantum mechanics. 展开更多
关键词 IWOP technique multipartite state representations squeezing operator
在线阅读 下载PDF
Generalized Bargmann Representation of Spin Coherent State 被引量:1
13
作者 FANHong-Yi CHENJun-Hu 《Communications in Theoretical Physics》 SCIE CAS CSCD 2004年第4期537-540,共4页
Based on the conclusion that the generalized Bargmann representation of a two-mode Fock state is a two-variable Hermite polynomial function /Hong-Yi Fan and Jun-hua Chen,Phys.Lett.A303(2002)311] we derive the generali... Based on the conclusion that the generalized Bargmann representation of a two-mode Fock state is a two-variable Hermite polynomial function /Hong-Yi Fan and Jun-hua Chen,Phys.Lett.A303(2002)311] we derive the generalized Bargmann representation of the spin coherent state and some new relations in the generalized function space. 展开更多
关键词 spin coherent state generalized Bargmann representation Hermite polynomials
在线阅读 下载PDF
运动特征激励的无候选框视频描述定位
14
作者 郭义臣 李坤 郭丹 《中国图象图形学报》 CSCD 北大核心 2023年第10期3077-3091,共15页
目的视频描述定位是视频理解领域一个重要且具有挑战性的任务,该任务需要根据一个自然语言描述的查询,从一段未修剪的视频中定位出文本描述的视频片段。由于语言模态与视频模态之间存在巨大的特征表示差异,因此如何构建出合适的视频—... 目的视频描述定位是视频理解领域一个重要且具有挑战性的任务,该任务需要根据一个自然语言描述的查询,从一段未修剪的视频中定位出文本描述的视频片段。由于语言模态与视频模态之间存在巨大的特征表示差异,因此如何构建出合适的视频—文本多模态特征表示,并准确高效地定位目标片段成为该任务的关键点和难点。针对上述问题,本文聚焦于构建视频—文本多模态特征的优化表示,提出使用视频中的运动信息去激励多模态特征表示中的运动语义信息,并以无候选框的方式实现视频描述定位。方法基于自注意力的方法提取自然语言描述中的多个短语特征,并与视频特征进行跨模态融合,得到多个关注不同语义短语的多模态特征。为了优化多模态特征表示,分别从时序维度及特征通道两个方面进行建模:1)在时序维度上使用跳连卷积,即一维时序卷积对运动信息的局部上下文进行建模,在时序维度上对齐语义短语与视频片段;2)在特征通道上使用运动激励,通过计算时序相邻的多模态特征向量之间的差异,构建出响应运动信息的通道权重分布,从而激励多模态特征中表示运动信息的通道。本文关注不同语义短语的多模态特征融合,采用非局部神经网络(non-local neural network)建模不同语义短语之间的依赖关系,并采用时序注意力池化模块将多模态特征融合为一个特征向量,回归得到目标片段的开始与结束时刻。结果在多个数据集上验证了本文方法的有效性。在Charades-STA数据集和ActivityNet Captions数据集上,模型的平均交并比(mean intersection over union,mIoU)分别达到了52.36%和42.97%,模型在两个数据集上的召回率R@1(Recall@1)分别在交并比阈值为0.3、0.5和0.7时达到了73.79%、61.16%和52.36%以及60.54%、43.68%和25.43%。与LGI(local-global video-text interactions)和CPNet(contextual pyramid network)等方法相比,本文方法在性能上均有明显的提升。结论本文在视频描述定位任务上提出了使用运动特征激励优化视频—文本多模态特征表示的方法,在多个数据集上的实验结果证明了运动激励下的特征能够更好地表征视频片段和语言查询的匹配信息。 展开更多
关键词 视频描述定位 运动激励 多模态特征表示 无候选框 计算机视觉 视频理解
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部