期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
多模态检索研究综述 被引量:1
1
作者 金涛 金冉 +2 位作者 侯腾达 袁杰 顾骁哲 《计算机工程与应用》 CSCD 北大核心 2024年第5期62-75,共14页
多模态数据的日益增长使得多模态检索技术也相继受到了不少关注。随着汽车、医学等行业引入计算机与大数据技术,大量的行业数据其本身都是以多模态形式呈现出来的,行业的快速发展使人们对信息的需求不断增加,单一模态数据检索已经无法... 多模态数据的日益增长使得多模态检索技术也相继受到了不少关注。随着汽车、医学等行业引入计算机与大数据技术,大量的行业数据其本身都是以多模态形式呈现出来的,行业的快速发展使人们对信息的需求不断增加,单一模态数据检索已经无法满足人们对信息的需求。为了解决这些问题,满足一种模态的数据检索其他模态数据的需求,通过文献的查阅对多模态检索的方法进行研究,分析了公共子空间、深度学习、多模态哈希算法等不同的研究方法,梳理了近年来提出的解决这些问题的多模态检索技术。最后,对近几年来提出的多模态检索方法根据检索的准确性、检索的效率以及特点等多方面进行评价对比;对多模态检索所遇到的挑战进行分析,并展望多模态检索未来的应用前景。 展开更多
关键词 多模态检索 公共子空间 深度学习 哈希算法
在线阅读 下载PDF
历史建筑多模态检索方法研究
2
作者 袁嘉梦 陈浪 +1 位作者 陈维亚 骆汉宾 《土木建筑工程信息技术》 2024年第4期7-13,共7页
在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针... 在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针对以上问题,提出了一种面向历史建筑的多模态检索方法,用户能通过输入图像或自然语言文本数据,检索到与输入特征相符的建筑,并以列表形式进行排序。在以图像检索建筑时,利用“dino_vit16”模型对图像进行特征提取,所提出的图像-建筑检索方法检索精度达90.08%;在文本检索建筑时则基于CLIP(Contrastive Language-Image Pre-training)模型建立图像和文本的关联,研究了图文相似度和文本相似度权重的取值,选择m=0.6,n=0.4作为权重的最佳配置。实验证明所提出的文本-建筑检索算法对于包含某种外观特征查询语句的检索效果最好,对于描述某种功能和建筑风格的查询语句检索效果最差,而当查询语句中包含4个以上的混合特征,能够描述出建筑的基本面貌时,可以准确地检索到符合条件的建筑。 展开更多
关键词 历史建筑 HBIM VIT 相似性度量 多模态检索
在线阅读 下载PDF
基于语义学习的图像多模态检索 被引量:6
3
作者 李志欣 施智平 +1 位作者 陈宏朝 吴璟莉 《计算机工程》 CAS CSCD 2013年第3期258-263,共6页
针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力... 针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力较差。基于语义图例的查询能够在很大程度上克服这个缺陷,通过在显式或隐式的语义空间上进行查询,使检索结果更符合人类感知。实验结果表明,与基于纹理特征的图像检索相比,基于语义图例的检索具有更高的精度及召回率。 展开更多
关键词 图像多模态检索 图像自动标注 概率主题建模 概率潜在语义分析 语义鸿沟 语义学习 语义多项式
在线阅读 下载PDF
多模态检索在医学领域的研究综述 被引量:1
4
作者 丁国辉 张琦 +4 位作者 房士超 李青 孙小宇 张路霞 孔桂兰 《计算机工程与应用》 CSCD 北大核心 2023年第1期26-36,共11页
随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要... 随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要的临床价值。回顾了近年来多模态检索在医学领域的实现方法,将其归纳为基于文本、基于内容以及基于融合信息的多模态检索,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。针对多模态检索算法的性能,介绍了准确率、召回率以及平均精度均值等常用的评价指标。分析了当前医学领域多模态检索所面临的挑战,并对未来医学领域多模态检索的研究发展进行了展望。 展开更多
关键词 多模态检索 检索方法 医学多模态数据集 性能评价
在线阅读 下载PDF
面向媒体融合的智能化多模态检索系统分析 被引量:4
5
作者 徐莉 《电视技术》 2021年第2期1-3,共3页
全媒体时代下,各个媒体机构都面临着前所未有的快速转型和融合。作为核心战略资源,媒资存在检索难度大、人工标引效率不高等问题。因此,尝试将AI技术引入媒资检索,结合浙江广播电视集团在智能化媒资系统建设方面的实践与探索,分析多模... 全媒体时代下,各个媒体机构都面临着前所未有的快速转型和融合。作为核心战略资源,媒资存在检索难度大、人工标引效率不高等问题。因此,尝试将AI技术引入媒资检索,结合浙江广播电视集团在智能化媒资系统建设方面的实践与探索,分析多模态检索的重要意义、主要功能及技术实现。 展开更多
关键词 媒资 人工智能 多模态检索 移动端
在线阅读 下载PDF
基于概率图模型的多模态数据联合检索算法 被引量:1
6
作者 甘胜江 孙连海 +1 位作者 何俊林 卢颖 《现代电子技术》 北大核心 2017年第5期33-37,共5页
为了提高多模态检索的性能,提出一种多模态文档语义生成模型以及基于该模型的多模态数据联合检索算法。多模态文档语义生成模型认为文档中每个模态数据都是由相同的语义概念生成的,并且文档是多个模态数据的联合分布。为了简化模型的求... 为了提高多模态检索的性能,提出一种多模态文档语义生成模型以及基于该模型的多模态数据联合检索算法。多模态文档语义生成模型认为文档中每个模态数据都是由相同的语义概念生成的,并且文档是多个模态数据的联合分布。为了简化模型的求解过程,假设各个模态数据之间的生成过程是相互独立的,于是可以对每个模态的条件概率进行单独计算。在多模态联合检索中,通过计算查询数据和待检索文档的联合概率来计算它们之间的相似度。实验结果表明,提出的方法与两步检索、语义索引和排序学习三种多模态检索方法相比具有更好的检索性能。此外,该方法可以扩展应用到具有三个及以上模态数据的文档联合检索中。 展开更多
关键词 多模态检索 概率图模型 极大似然估计 产生式模型
在线阅读 下载PDF
基于模态特异及模态共享特征信息的多模态细粒度检索 被引量:4
7
作者 李佩 陈乔松 +3 位作者 陈鹏昌 邓欣 王进 朴昌浩 《计算机工程》 CAS CSCD 北大核心 2022年第11期62-68,76,共8页
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及... 跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。 展开更多
关键词 信息检索 多模态检索 细粒度检索 多模态表征学习 深度学习
在线阅读 下载PDF
基于外观设计专利的多模态图像检索 被引量:2
8
作者 李晴晴 周长胜 +1 位作者 吕学强 张凯 《计算机工程与设计》 北大核心 2016年第9期2469-2474,共6页
为充分发挥外观设计专利数据不同模态特征的优点,提高检索准确率,提出一种融合文本特征与底层视觉特征的多模态图像检索算法。提出有效内容提取算法提取图像有效内容,对图像有效内容提取底层视觉特征,融合图像文本特征与视觉特征实现多... 为充分发挥外观设计专利数据不同模态特征的优点,提高检索准确率,提出一种融合文本特征与底层视觉特征的多模态图像检索算法。提出有效内容提取算法提取图像有效内容,对图像有效内容提取底层视觉特征,融合图像文本特征与视觉特征实现多模态检索。实验结果表明,对外观设计专利图像分别检索相似和同类图像时,该检索算法检索效果优于已有单模态检索方法。 展开更多
关键词 多模态检索 文本特征 底层视觉特征 局部方向模式 外观设计专利检索
在线阅读 下载PDF
医学口腔图像检索的快速无监督多模态哈希方法 被引量:1
9
作者 郑筱智 李景华 《信息技术与信息化》 2021年第6期123-125,共3页
针对医学图像数据检索和存储效率低的问题,提出了一种基于多模态哈希编码的一种简单而有效的快速无监督多模态哈希(FUMH)方法。首先将多模态特征中的判别语义协同保存到哈希码中,构建新的无监督多模态哈希学习模型。然后利用新的无参数... 针对医学图像数据检索和存储效率低的问题,提出了一种基于多模态哈希编码的一种简单而有效的快速无监督多模态哈希(FUMH)方法。首先将多模态特征中的判别语义协同保存到哈希码中,构建新的无监督多模态哈希学习模型。然后利用新的无参数多模态二值哈希投影加权方案,自动计算模态组合权值,实现优秀的检索准确性和存储效率。最后通过实验方法与现有最新的无监督哈希方法进行比较,从多个方面验证了该方法相对于现有方法的优势。 展开更多
关键词 大尺度多模态检索 哈希 多模态哈希 医学图像检索
在线阅读 下载PDF
半配对的多模态询问哈希方法
10
作者 庾骏 马江涛 +2 位作者 咸阳 侯瑞霞 孙伟 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期481-491,共11页
多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有的询问数据都具备完整的多种模态信息以生成... 多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有的询问数据都具备完整的多种模态信息以生成它们的联合哈希码。然而,实际应用中很难获得全完整的多模态信息,针对存在模态信息缺失的半配对询问场景,该文提出一种新颖的半配对询问哈希(SPQH),以解决半配对的询问样本的联合编码问题。首先,提出的方法执行投影学习和跨模态重建学习以保持多模态数据间的语义一致性。然后,标签空间的语义相似结构信息和多模态数据间的互补信息被有效地捕捉以学习判别性的哈希函数。在询问编码阶段,通过学习到的跨模态重构矩阵为未配对的样本数据补全缺失的模态特征,然后再经习得的联合哈希函数生成哈希特征。相比最先进的基线方法,在Pascal Sentence,NUS-WIDE和IAPR TC-12数据集上的平均检索精度提高了2.48%。实验结果表明该算法能够有效编码半配对的多模态询问数据,取得了优越的检索性能。 展开更多
关键词 多模态信息检索 哈希 半配对数据 模态重建 二值化编码
在线阅读 下载PDF
基于细粒度特征融合的部分多模态哈希
11
作者 殷崭祚 李博涵 +3 位作者 王萌 黄瑞龙 吴文隆 王昊奋 《软件学报》 EI CSCD 北大核心 2024年第3期1074-1089,共16页
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但... 多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F^(3)模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F^(3)模型能够有效地实现部分多模态哈希,并可应用于大规模多模态数据检索. 展开更多
关键词 部分多模态哈希 多模态数据检索 细粒度特征融合
在线阅读 下载PDF
多媒体交叉参照检索系统研究 被引量:8
12
作者 庄越挺 吴聪苗 +1 位作者 吴飞 刘翔 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2005年第4期834-839,共6页
描述并实现了一个面向数字图书馆的多媒体交叉参照检索系统该系统将对多模态数据的检索无缝地融合到一个系统中,基于交叉参照图模型,多模态交叉参照搜索引擎综合计算媒体对象与查询之间在语义和内容层上的相似度;系统还支持用户相关反... 描述并实现了一个面向数字图书馆的多媒体交叉参照检索系统该系统将对多模态数据的检索无缝地融合到一个系统中,基于交叉参照图模型,多模态交叉参照搜索引擎综合计算媒体对象与查询之间在语义和内容层上的相似度;系统还支持用户相关反馈调整交叉参照图模型实验结果表明。 展开更多
关键词 多模态检索 交叉参照图 相关反馈
在线阅读 下载PDF
用于多模态语义分析的嵌入共识自动编码器 被引量:2
13
作者 孙圣姿 郭炳晖 杨小博 《计算机科学》 CSCD 北大核心 2021年第7期93-98,共6页
跨模态检索技术是一项近年来的研究热点。多模态数据具有异质性,而不同形式的信息之间又有着相似性。传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索。因此,文中建立了一个跨模态... 跨模态检索技术是一项近年来的研究热点。多模态数据具有异质性,而不同形式的信息之间又有着相似性。传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索。因此,文中建立了一个跨模态嵌入共识自动编码器(Cross-Modal Semantic Autoencoder with Embedding Consensus,ECA-CMSA),将原始数据映射到低维共识空间以保留语义信息,学习出对应的语义代码向量,并引入参数来实现去噪。然后,考虑到各模态之间的相似性,采用自动编码器将特征投影关联到语义代码向量。此外,对低维矩阵进行正则化稀疏约束,以平衡重构误差。在4个多模态数据集上验证所提方法的性能,实验结果证明其查询结果有所提升,实现了有效的跨模态检索。进一步,ECA-CMSA还可以应用于与计算机和网络有关的领域,如深度学习和子空间学习。该模型突破了传统方法中的障碍,创新地使用深度学习方法将多模态数据转换为抽象的表达,使其可以获得更好的准确度和识别结果。 展开更多
关键词 多模态检索 嵌入共识 自动编码器 稀疏正则
在线阅读 下载PDF
音视频检索系统的研究与实现
14
作者 何丽媛 《数字传媒研究》 2018年第11期44-46,共3页
音视频检索系统可以为用户提供文本检索、视频检索、音频检索等多形式的检索查询服务。音视频检索系统以数据库为基础,通过建立包含关键字、视频样例、音频片断、说话人、文本说话内容等在内的多模态检索方式,从而实现对各类信息的综合... 音视频检索系统可以为用户提供文本检索、视频检索、音频检索等多形式的检索查询服务。音视频检索系统以数据库为基础,通过建立包含关键字、视频样例、音频片断、说话人、文本说话内容等在内的多模态检索方式,从而实现对各类信息的综合检索功能。本文详细论述了多模态检索方式的基本原理,并给出了信息综合检索系统的实现方法。 展开更多
关键词 音视频检索 多模态检索方式 综合检索
在线阅读 下载PDF
基于跨模态注意力哈希学习的视频片段定位方法
15
作者 谭智方 董飞 +3 位作者 卢鹏宇 潘嘉男 聂秀山 尹义龙 《山东大学学报(工学版)》 北大核心 2025年第1期58-65,共8页
为提升视频片段定位的精度与检索效率,提出基于跨模态注意力哈希学习的视频片段定位方法。将查询语句和原始视频特征通过哈希学习模型转化成简洁的二值哈希码;使用软注意力模块对查询语句中的关键单词进行加权,将视频哈希码和查询语句... 为提升视频片段定位的精度与检索效率,提出基于跨模态注意力哈希学习的视频片段定位方法。将查询语句和原始视频特征通过哈希学习模型转化成简洁的二值哈希码;使用软注意力模块对查询语句中的关键单词进行加权,将视频哈希码和查询语句哈希码输入一个增强的跨模态注意力模型中,挖掘视觉和语言之间的语义关系;设计一个得分预测和位置预测网络,对查询时刻的起始时间戳进行定位。在2个公开数据集上对所提方法进行试验验证,结果表明所提方法对检索效率提升约7倍。 展开更多
关键词 视觉理解 视频片段定位 多模态检索 哈希学习 模态
原文传递
基于人工智能的短视频自动化生产研究与应用
16
作者 张康 宋施恩 +2 位作者 王心莹 孙钱丽 姚广 《广播与电视技术》 2024年第12期31-35,共5页
本文对基于人工智能的短视频自动化生产进行了研究,并以长视频分析与理解技术、自动化剪辑技术和多模态检索技术为基础,提出了一种新的AI自动化短视频创作方法,经应用实践可知,该方法从长视频中抽取结构化数据,通过向量检索和自动剪辑... 本文对基于人工智能的短视频自动化生产进行了研究,并以长视频分析与理解技术、自动化剪辑技术和多模态检索技术为基础,提出了一种新的AI自动化短视频创作方法,经应用实践可知,该方法从长视频中抽取结构化数据,通过向量检索和自动剪辑实现端到端的短视频生产,极大地提升了短视频的制作效率,降低了人工成本,为媒体智能化生产提供了技术新思路。 展开更多
关键词 人工智能 视频分析与理解 视频自动化剪辑 多模态检索
在线阅读 下载PDF
照片档案智能分析管理系统的设计与实现
17
作者 谷宇 王文聪 段晓毅 《北京电子科技学院学报》 2024年第1期72-81,共10页
照片档案是国家机构、社会组织及个人在社会活动中直接形成的以静止摄影为主要反映方式的、有保存价值的回忆记录。由于照片数量大,管理者根据某些特殊条件(如地点、关键节日、人物组合等)从海量照片中快速检索出相关照片比较困难,而由... 照片档案是国家机构、社会组织及个人在社会活动中直接形成的以静止摄影为主要反映方式的、有保存价值的回忆记录。由于照片数量大,管理者根据某些特殊条件(如地点、关键节日、人物组合等)从海量照片中快速检索出相关照片比较困难,而由于照片档案的特殊性,不方便使用在线照片管理软件。因此,本文介绍了一种可以利用多模态检索技术,根据地点、关键节日、人物组合等条件,从海量照片中快速检索出符合要求的本地照片档案管理系统。通过使用该系统,照片档案管理工作者可以简化照片录入、筛选流程,快速找到符合特定条件的照片,极大地减轻自身的工作负担。 展开更多
关键词 多模态检索 光学字符识别 人脸识别
在线阅读 下载PDF
深度多模态融合服装风格检索 被引量:5
18
作者 苏卓 柯司博 +1 位作者 王若梅 周凡 《中国图象图形学报》 CSCD 北大核心 2021年第4期857-871,共15页
目的服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服... 目的服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法提出分层深度哈希检索模型,基于预训练的残差网络Res Net(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果在Polyvore数据集上,与原始Res Net模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。 展开更多
关键词 多模态服装检索 哈希特征 文本嵌入 风格相似性 深度哈希
原文传递
面向Web图像检索的语义关联多模态哈希方法 被引量:3
19
作者 熊昊哲 谢良 《武汉理工大学学报》 CAS 北大核心 2016年第8期71-75,共5页
随着计算机网络和多媒体技术的迅猛发展,针对大规模多模态图像检索的需求变得越来越广泛。如何有效解决多模态性,语义鸿沟和大规模性已经成为Web图像检索中的三大重要挑战。最近提出的语义标注和哈希技术可以分别用来解决语义鸿沟和大... 随着计算机网络和多媒体技术的迅猛发展,针对大规模多模态图像检索的需求变得越来越广泛。如何有效解决多模态性,语义鸿沟和大规模性已经成为Web图像检索中的三大重要挑战。最近提出的语义标注和哈希技术可以分别用来解决语义鸿沟和大规模性,但它们无法涵盖目前存在的所有问题。在本文中,我们提出了语义关联多模态哈希用于多模态图像检索,它能够综合语义学习和哈希技术的优点。首先,通过基于图学习的半监督学习来增强训练样本的语义。然后构造所有样本的语义关联并将其保存在哈希函数中。学习出的哈希函数能够将所有模态均映射到统一的哈希空间中,从而支持多模态检索。在两个真实图像数据集上的实验结果证明了所提出方法的检索效果和效率。此外,实验结果也证明学习语义关联能够提高检索效果。 展开更多
关键词 哈希 多模态检索 语义关联
原文传递
基于自然语言的视频片段定位综述
20
作者 聂秀山 潘嘉男 +3 位作者 谭智方 刘新放 郭杰 尹义龙 《计算机科学》 CSCD 北大核心 2022年第9期111-122,共12页
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。 展开更多
关键词 多模态检索 视频片段定位 视频理解 模态对齐 模态交互
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部