期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于模态类别的多模态信息处理与融合综述
1
作者 黄文栋 王怡凡 《计算机与现代化》 2024年第7期47-62,共16页
随着人工智能和深度学习技术的不断发展,多模态信息处理与融合领域的相关研究受到了研究者们的广泛关注。本文总结多模态信息处理的发展历史和里程碑式的工作,以及多模态融合策略和模型。根据模态类别的不同,分类整理多模态信息处理与... 随着人工智能和深度学习技术的不断发展,多模态信息处理与融合领域的相关研究受到了研究者们的广泛关注。本文总结多模态信息处理的发展历史和里程碑式的工作,以及多模态融合策略和模型。根据模态类别的不同,分类整理多模态信息处理与融合的主流数据集。以模态类型作为分类标准,本文系统地梳理多模态信息处理与融合的研究进展,强调不同模态之间的区别,并将多模态信息处理与融合分为:视听处理与融合、声文处理与融合、视觉-文本处理与融合和视觉-音频-文本处理与融合4种类别,对不同输入模态的处理融合方法与模型进行详细的研究。最后针对多模态处理与融合领域的发展进行总结与展望。 展开更多
关键词 多模态处理 多模态信息处理 多模态融合 深度学习
在线阅读 下载PDF
交际意图从生成到识解的过程研究——多模态语篇信息处理视角 被引量:3
2
作者 淮艳梅 《外国语文》 北大核心 2014年第3期90-95,共6页
以多模态语篇信息处理为视角,研究交际意图从生成到识解的多模态信息处理过程,结果表明交际双方的多模态信息编码和解码过程呈镜面逆向关系,多模态交际语篇为镜面本身,交际双方逆向处理多模态信息,即交际者生成交际意图后,经过信息语篇... 以多模态语篇信息处理为视角,研究交际意图从生成到识解的多模态信息处理过程,结果表明交际双方的多模态信息编码和解码过程呈镜面逆向关系,多模态交际语篇为镜面本身,交际双方逆向处理多模态信息,即交际者生成交际意图后,经过信息语篇化、语篇信息化、信息多模态化过程,形成多模态交际语篇;而交际对象接收多模态交际语篇后,经过多模态信息化、信息语篇化、语篇信息化过程,识解交际意图。 展开更多
关键词 交际意图 多模态信息 多模态交际语篇 多模态语篇信息处理 语篇信息
在线阅读 下载PDF
MCM-ICE:联合独立编码和协同编码的多模态分类模型
3
作者 郭锐锋 魏靖烜 +1 位作者 于碧辉 孙林壮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2080-2086,共7页
多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型—... 多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型——MCM-ICE,它通过联合独立编码和协同编码策略来解决特征表示和特征融合的挑战.MCM-ICE在Fashion-Gen和Hateful Memes Challenge两个数据集上进行了实验,结果表明该模型在这两项任务中均优于现有的最先进方法.本文还探究了协同编码模块Transformer输出层的不同向量选取对结果的影响,结果表明选取[CLS]向量和去除[CLS]的向量的平均池化向量可以获得最佳结果.消融研究和探索性分析支持了MCM-ICE模型在处理多模态分类任务方面的有效性. 展开更多
关键词 多模态数据处理 特征表示 特征融合 协同编码
在线阅读 下载PDF
多模态信息处理前沿综述:应用、融合和预训练 被引量:22
4
作者 吴友政 李浩然 +1 位作者 姚霆 何晓冬 《中文信息学报》 CSCD 北大核心 2022年第5期1-20,共20页
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求... 随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。 展开更多
关键词 多模态信息处理 多模态融合 多模态预训练 自然语言处理
在线阅读 下载PDF
基于多模态神经网络的图像中文摘要生成方法 被引量:6
5
作者 刘泽宇 马龙龙 +1 位作者 吴健 孙乐 《中文信息学报》 CSCD 北大核心 2017年第6期162-171,共10页
图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提... 图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法 CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。 展开更多
关键词 图像中文摘要 多模态处理 神经网络
在线阅读 下载PDF
面向多模态数据的文本转化方法研究
6
作者 钟彩霞 季银飞 +3 位作者 胡寒强 叶欣楠 杨毅萱 马煜明 《工业控制计算机》 2024年第12期11-13,共3页
现阶段,电网技术和信息通信技术的快速发展对我国电力工业的壮大起到了非常重要的作用。然而,随之而来的是大量电力设备故障问题,原先以人工排查为解决故障维修的方式效率低且难度大,已经无法满足电厂生产需求。OCR技术是一种可用来帮... 现阶段,电网技术和信息通信技术的快速发展对我国电力工业的壮大起到了非常重要的作用。然而,随之而来的是大量电力设备故障问题,原先以人工排查为解决故障维修的方式效率低且难度大,已经无法满足电厂生产需求。OCR技术是一种可用来帮助解决电力故障的检测和诊断的有效方法。对OCR的识别过程以及OCR在电力领域的应用进行了研究,以促进对该技术的了解并挖掘尚未解决的问题。针对现代工业下企业所存在发电设备故障信息提取分析速度慢、效率低等问题,对面向多模态数据的文本交互式提取方法的研究与应用进行了综述。研究表明了OCR技术的应用可以有效帮助电力企业提高维修故障设备的效率,以提升企业的生产水平。在此基础上,项目构建的电力设备故障知识图谱,可实现设备故障的管理智能化,这对提高电力设备运行维护的工作效率具有重要的意义。 展开更多
关键词 OCR识别 发电设备故障维修 多模态数据处理
在线阅读 下载PDF
关于用反向模型(ZYX)搭建智能建造481智能体向量数据库的逻辑思考
7
作者 张跃先 刘泽亮 +4 位作者 张昱文 曾敏 陈琪 胡国平 易创 《中外建筑》 2025年第2期88-93,共6页
以“反者道之动”的哲学理念为基础,创新性地构建了智能建造481体系中的逆向推导模型。打破传统XYZ坐标系的局限,创立从智慧城市目标反向推导技术需求的“ZYX”轴线原理,打造出BIM数字底座、柔性生产与智能管理协同发展的架构。面对多... 以“反者道之动”的哲学理念为基础,创新性地构建了智能建造481体系中的逆向推导模型。打破传统XYZ坐标系的局限,创立从智慧城市目标反向推导技术需求的“ZYX”轴线原理,打造出BIM数字底座、柔性生产与智能管理协同发展的架构。面对多模态数据处理的难题,运用领域专用分词技术剖析建筑术语,融合基于卷积神经网络(CNN)的图纸特征与结构化数据,构建多维向量空间。借助检索增强生成(RAG)技术,实现施工质量的动态监测以及与知识库的精准交互。采用“小模型+核心参数”的优化策略,在材料预测、设备管理等场景有效降低成本、提高效率。研究表明,逆向思维与正向技术相互依存、辩证统一,通过“实践—优化”的闭环机制推动智能建造不断迭代升级,为建筑行业数字化转型提供兼顾技术效益与经济效益的创新模式。 展开更多
关键词 智能建造 大语言模型 ZYX481智能体 建筑业多模态数据处理 逆向思维
在线阅读 下载PDF
数据结构与算法创新实验教学实践——以跨模态检索为例 被引量:1
8
作者 宗林林 于红 +3 位作者 刘馨月 徐秀娟 张晓彤 张宪超 《实验室研究与探索》 CAS 北大核心 2023年第6期169-173,共5页
数据结构与算法创新实验是计算机专业数据结构与算法课程教学中不可缺少的实验环节,为了提高此类实验教学质量,满足大数据处理的需求,以跨模态检索任务为例,探究面向大数据的多模态检索问题。通过分析多模态数据的产生,给出了跨模态检... 数据结构与算法创新实验是计算机专业数据结构与算法课程教学中不可缺少的实验环节,为了提高此类实验教学质量,满足大数据处理的需求,以跨模态检索任务为例,探究面向大数据的多模态检索问题。通过分析多模态数据的产生,给出了跨模态检索任务的定义,结合跨模态检索大学生创新训练项目,分析了大学生在解决检索方面新问题的过程中提高创新能力的方法。总结了大学生创新实验的成效和体会,为数据结构与算法创新实验教学实践提供了更加有效的路径。 展开更多
关键词 检索 多模态数据处理 数据结构与算法
在线阅读 下载PDF
多尺度的开放词汇目标检测
9
作者 祝岚 翟亚红 +3 位作者 徐龙艳 王杰 赵逸凡 叶子恒 《湖北汽车工业学院学报》 2024年第3期77-80,共4页
现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合Channel Attention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区... 现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合Channel Attention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区域打包对齐方法处理图像与文本的对应关系。实验表明:相对于基线模型,C-Baron在新类别和基础类别上的识别精度分别提高了2%和6.3%。 展开更多
关键词 开放词汇目标检测 多尺度信息 多模态处理 图片文本对齐 C-FPN模块
在线阅读 下载PDF
非关系型表格理解前沿进展
10
作者 罗平 杨清平 +2 位作者 曹逸轩 曹荣禹 何清 《中文信息学报》 CSCD 北大核心 2024年第5期1-21,共21页
表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多... 表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。 展开更多
关键词 表格智能 深度学习 多模态自然语言处理
在线阅读 下载PDF
基于多传感器信息融合的AGV自主无轨导航技术 被引量:2
11
作者 徐恢川 陈绮璋 +4 位作者 余峰 肖昊远 柯英 程健 吴建军 《湖北理工学院学报》 2024年第3期13-17,共5页
传统的物料搬运AGV机器人不能进行自主规划行走路径,也不能满足智能制造和数字化工厂对AGV进行科学调度、自动避障、安全可靠且不发生阻设的要求。因此,文章基于多模态传感器数据处理、SLAM地图构建等多重信号融合的原理和方法,提出了... 传统的物料搬运AGV机器人不能进行自主规划行走路径,也不能满足智能制造和数字化工厂对AGV进行科学调度、自动避障、安全可靠且不发生阻设的要求。因此,文章基于多模态传感器数据处理、SLAM地图构建等多重信号融合的原理和方法,提出了一种多传感器信息融合的AGV自主无轨导航技术,设计了AGV实物样机,并进行实验验证。结果表明,在无轨复杂场景情况下,AGV机器人的导航定位精度优于1 mm,重复定位精度优于2 mm,满足智能制造和数字化工厂对AGV的自主导航控制要求。 展开更多
关键词 多传感器信息融合 AGV 无轨自主导航 多模态数据处理
在线阅读 下载PDF
A method based on mutual information and gradient information for medical image registration 被引量:3
12
作者 陈晓燕 辜嘉 +2 位作者 李松毅 舒华忠 罗立民 《Journal of Southeast University(English Edition)》 EI CAS 2003年第1期35-39,共5页
Mutual information is widely used in medical image registration, because it does not require preprocessing the image. However, the local maximum problem in the registration is insurmountable. We combine mutual informa... Mutual information is widely used in medical image registration, because it does not require preprocessing the image. However, the local maximum problem in the registration is insurmountable. We combine mutual information and gradient information to solve this problem and apply it to the non-rigid deformation image registration. To improve the accuracy, we provide some implemental issues, for example, the Powell searching algorithm, gray interpolation and consideration of outlier points. The experimental results show the accuracy of the method and the feasibility in non-rigid medical image registration. 展开更多
关键词 medical image registration gradient information mutual information multi-modal images non-rigid deformation
在线阅读 下载PDF
文档智能:数据集、模型和应用 被引量:12
13
作者 崔磊 徐毅恒 +1 位作者 吕腾超 韦福如 《中文信息学报》 CSCD 北大核心 2022年第6期1-19,共19页
文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答... 文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。 展开更多
关键词 文档智能 深度学习 多模态自然语言处理
在线阅读 下载PDF
Test method of laser paint removal based on multi-modal feature fusion
14
作者 HUANG Hai-peng HAO Ben-tian +2 位作者 YE De-jun GAO Hao LI Liang 《Journal of Central South University》 SCIE EI CAS CSCD 2022年第10期3385-3398,共14页
Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion net... Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion network model was constructed based on a laser paint removal experiment. The alignment of heterogeneous data under different modals was solved by combining the piecewise aggregate approximation and gramian angular field. Moreover, the attention mechanism was introduced to optimize the dual-path network and dense connection network, enabling the sampling characteristics to be extracted and integrated. Consequently, the multi-modal discriminant detection of laser paint removal was realized. According to the experimental results, the verification accuracy of the constructed model on the experimental dataset was 99.17%, which is 5.77% higher than the optimal single-modal detection results of the laser paint removal. The feature extraction network was optimized by the attention mechanism, and the model accuracy was increased by 3.3%. Results verify the improved classification performance of the constructed multi-modal feature fusion model in detecting laser paint removal, the effective integration of acoustic data and visual image data, and the accurate detection of laser paint removal. 展开更多
关键词 laser cleaning multi-modal fusion image processing deep learning
在线阅读 下载PDF
基于深度学习的RGB-D图像显著性目标检测前沿进展
15
作者 黄年昌 杨阳 +1 位作者 张强 韩军功 《计算机学报》 2025年第2期284-316,共33页
显著性目标检测是计算机视觉领域的基础问题之一,旨在对图像中最吸引人注意的目标进行检测和分割。随着深度学习技术的发展,基于RGB(Red-Green-Blue)图像的显著性目标检测算法取得了巨大进步,在简单场景下已经取得较为满意的结果。然而... 显著性目标检测是计算机视觉领域的基础问题之一,旨在对图像中最吸引人注意的目标进行检测和分割。随着深度学习技术的发展,基于RGB(Red-Green-Blue)图像的显著性目标检测算法取得了巨大进步,在简单场景下已经取得较为满意的结果。然而,局限于可见光相机的成像能力,RGB图像易受到光照条件的影响,且无法捕捉场景的三维空间信息。相应地,基于RGB图像的显著性目标检测算法通常难以在一些复杂场景下取得较好的检测效果。近年来,随着深度成像技术不断发展和硬件成本不断降低,深度相机得到了广泛应用。其捕获的场景空间信息,与可见光图像获取的场景细节信息相互补充,有助于提升复杂场景下显著性目标检测性能。因此,RGB-深度(RGB-Depth,RGB-D)图像显著性目标检测引起了学者广泛研究。本文对近期基于深度学习的RGB-D图像显著性目标检测算法进行了整理和分析。首先,分析了多模态RGB-D图像显著性目标检测所面临的关键问题,并以此对现有算法解决这些关键问题的主要思路和方法进行了总结和梳理。然后,介绍了用于RGB-D图像显著性目标检测算法研究的主流数据集和常用性能评价指标,并对各类主流模型进行了定量比较和定性分析。最后,本文进一步分析了RGB-D图像显著性目标检测领域有待解决的问题,同时对今后可能的研究趋势进行了展望。 展开更多
关键词 显著性目标检测 RGB图像 深度图像 深度学习 多模态图像处理
在线阅读 下载PDF
智慧中台在融媒体一体化制播网中的应用 被引量:1
16
作者 刘涛 《广播电视信息》 2021年第9期24-27,共4页
本文以随州广播电视台传媒中心建设的融媒体一体化制播网为实例,介绍了如何运用智慧中台的能力中台、异构AI多种引擎调度、AI多模态处理等各类AI技术提升生产效率,实现多种AI能力的多级复用,降低重复建设成本,这是该台制播系统由传统制... 本文以随州广播电视台传媒中心建设的融媒体一体化制播网为实例,介绍了如何运用智慧中台的能力中台、异构AI多种引擎调度、AI多模态处理等各类AI技术提升生产效率,实现多种AI能力的多级复用,降低重复建设成本,这是该台制播系统由传统制播向智能化制播发展的一种转变和尝试,能够为地市级电视台和县级融媒体中心在内容生产中应用AI智能技术提供有益经验。 展开更多
关键词 智慧中台 能力中台 异构AI多种引擎调度 AI多模态处理
在线阅读 下载PDF
人工智能在智慧云媒资系统中的应用
17
作者 韩小静 《视界观》 2022年第23期40-42,共3页
采用人工智能、对象存储等先进技术,通过人脸识别、语音识别、OCR 字幕识别、NLP 处理等服务,实现智能编目、智能推荐、互联网访问,可进行版权著录,后期可扩展版权管理和交易等新功能。实现媒体资产从内容汇聚到生产、审核、管理等全流... 采用人工智能、对象存储等先进技术,通过人脸识别、语音识别、OCR 字幕识别、NLP 处理等服务,实现智能编目、智能推荐、互联网访问,可进行版权著录,后期可扩展版权管理和交易等新功能。实现媒体资产从内容汇聚到生产、审核、管理等全流程全环节的智能处理,极大提升内容产生效率和实时度,实现数据自动分类。 展开更多
关键词 智慧媒资 对象存储 人工智能 能力中台 AI多模态处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部