期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于双重注意力机制的多尺度指代目标分割方法
1
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 跨模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
基于不确定性感知自适应伪标签的指代视频目标分割
2
作者 张施明 陈智谦 米金鹏 《建模与仿真》 2025年第2期236-244,共9页
指代视频目标分割(Referring Video Object Segmentation,RVOS)是一项新兴的多模态任务,旨在通过理解给定指代表达的语义来分割视频片段中的目标区域。然而,基准数据集的标注是通过半监督方式收集的,仅提供了视频第一帧的真实目标掩码... 指代视频目标分割(Referring Video Object Segmentation,RVOS)是一项新兴的多模态任务,旨在通过理解给定指代表达的语义来分割视频片段中的目标区域。然而,基准数据集的标注是通过半监督方式收集的,仅提供了视频第一帧的真实目标掩码。为了在一个更综合的框架中探索未标记数据中的隐藏知识,本文引入了在线伪标签来解决RVOS问题。具体来说,使用之前训练阶段的即时学习检查点作为教师模型,在未标记的视频帧上生成伪标签,并将获得的伪标签用作训练数据的增强,以监督随后的训练阶段。为了避免伪标签带来的混淆,本文提出了一种不确定性感知的细化策略,根据模型预测的置信度自适应地修正生成的伪标签。本文在基准数据集Refer-YouTube-VOS和Refer-DAVIS17上进行了广泛的实验来验证所提出的方法。实验结果表明,本文的模型与最先进的模型相比取得了具有竞争力的结果。 展开更多
关键词 指代视频目标分割 伪标签 不确定性感知细化
原文传递
基于时空层级查询的指代视频目标分割
3
作者 兰猛 张乐飞 +1 位作者 杜博 张良培 《中国科学:信息科学》 CSCD 北大核心 2024年第3期674-691,共18页
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法(STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机... 本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法(STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能. 展开更多
关键词 指代视频目标分割 时空一致性建模 时空特征学习 跨模态特征交互 TRANSFORMER
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部