期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于动作发现与边界预测的时序动作定位
1
作者 陈乐聪 李平 曹佳晨 《计算机应用与软件》 北大核心 2024年第3期147-155,181,共10页
时序动作定位指寻找视频中不同动作实例的开始与结束时间,即时序边界。现有强化学习方法存在重复搜索视频相同内容以及帧级别输入造成语义信息不足的问题,为此提出基于动作发现与边界预测的时序动作定位方法。将动作发现看作强化学习问... 时序动作定位指寻找视频中不同动作实例的开始与结束时间,即时序边界。现有强化学习方法存在重复搜索视频相同内容以及帧级别输入造成语义信息不足的问题,为此提出基于动作发现与边界预测的时序动作定位方法。将动作发现看作强化学习问题,训练视频被重编码为含多个视频单元的序列作为环境(Environment),含记忆模块的智能体(Agent)与具有动作实例移除机制的环境进行交互,进而学会观察视频单元跳过背景而找到动作实例所在单元;将边界预测转化为回归问题,边界预测网络根据智能体发现的视频单元预测对应动作实例的时序边界。实验结果表明,该方法在THUMOS-14上的mAP@0.5相比最新强化学习方法提高6.6%,证实了该方法的优越性能。 展开更多
关键词 时序动作定位 动作发现 边界预测 智能体 强化学习
在线阅读 下载PDF
一致性对比采样网络的弱监督时序动作定位
2
作者 陶应诚 黎鑫 +2 位作者 徐浩 王冠 景圣恩 《计算机科学与应用》 2024年第2期183-199,共17页
弱监督时序动作定位使用视频级标签,不需要高成本的动作实例标签,具有重要的研究价值。弱监督时序动作定位的难点在于,视频中的前景片段被淹没在背景片段中,难以得到精确的前景样本用于训练模型。关注于分析背景和前景片段在时间类激活... 弱监督时序动作定位使用视频级标签,不需要高成本的动作实例标签,具有重要的研究价值。弱监督时序动作定位的难点在于,视频中的前景片段被淹没在背景片段中,难以得到精确的前景样本用于训练模型。关注于分析背景和前景片段在时间类激活序列上的差异,提出一致性对比采样网络。该网络使用多头注意力模块来增强行为特征。为了缓解前景样本被背景样本干扰的问题,该网络设计了易混淆样本的随机采样策略,用于学习前景采样的提议分布。为了促进前景分布的收敛,该网络联合考虑多阶段的前景采样规则,设计多阶段一致性采样模块。此外,针对前景和背景过渡区域的前景样本和背景样本较为相似,难以区分的问题,该网络设计对比采样模块,并联合考虑多阶段一致性采样,用于挖掘出困难前景样本,并使用对比学习优化困难前景样本的特征。在THUMOS 14和Activity v1.3数据集上进行实验验证。实验结果表明,提出的方法达到现有弱监督时序动作定位方法的性能。 展开更多
关键词 时序动作定位 弱监督方法 一致性前景采样 对比采样
在线阅读 下载PDF
多时间尺度一致性的弱监督时序动作定位 被引量:3
3
作者 郭文斌 杨兴明 +2 位作者 蒋哲远 吴克伟 谢昭 《计算机工程与应用》 CSCD 北大核心 2023年第10期151-161,共11页
由于弱监督时序动作定位模型使用视频级的标签作为监督信号,模型在识别出动作实例中最具区分性的视频片段时,也会将和视频级标签有关的背景片段误认为是动作,难以产生完整的动作提议。为了进一步检测动作片段,通过分析动作片段在多时间... 由于弱监督时序动作定位模型使用视频级的标签作为监督信号,模型在识别出动作实例中最具区分性的视频片段时,也会将和视频级标签有关的背景片段误认为是动作,难以产生完整的动作提议。为了进一步检测动作片段,通过分析动作片段在多时间尺度上标记的一致性,提出了一种多时间尺度一致性的弱监督时序动作定位方法。对输入的视频帧提取RGB和光流的特征,设计一种多时间尺度的模块,使用不同尺寸的卷积核建模视频的时序关系。通过估计多时间尺度特征的时间类激活图,并对多分支的时间类激活图进行融合,获得多时间尺度一致性的动作预测标签。为了进一步优化模型预测的动作标签,采用迭代优化策略,在每次迭代中更新预测标签,并为模型训练提供有效的帧级监督信号。在THUMOS14和ActivityNet1.3数据集上进行实验验证,实验结果表明,方法性能优于现有弱监督时序动作定位方法。 展开更多
关键词 弱监督 时序动作定位 多时间尺度 一致性
在线阅读 下载PDF
特征挖掘与区域增强的弱监督时序动作定位 被引量:1
4
作者 王静 王传旭 《计算机应用研究》 CSCD 北大核心 2023年第8期2555-2560,共6页
弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得了很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强(FMRE)的定位方法。首先,通过基础分支计算视频片段... 弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得了很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强(FMRE)的定位方法。首先,通过基础分支计算视频片段之间的相似分数,并以此分数聚合上下文信息,得到更具有区别性的段分类分数,实现动作的完整定位;然后,添加增强分支,对基础分支定位中持续时间较短的动作提案沿时间维度进行动态上采样,进而采用多头自注意机制对动作提案间的时间结构显式建模,促进具有时间依赖关系的动作定位且防止短动作的漏检;最后,在两个分支之间构建伪标签互监督,逐步改进在训练过程中生成动作提案的质量。该算法在THUMOS14和ActivityNet1.3数据集上分别取得了70.3%和40.7%的检测性能,证明了所提算法的有效性。 展开更多
关键词 时序动作定位 逆变换 动态采样 伪标签互监督 多头自注意
在线阅读 下载PDF
基于对比学习的弱监督时序动作定位 被引量:1
5
作者 侯永宏 李岳阳 郭子慧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2023年第1期73-80,共8页
弱监督时序动作定位旨在于仅在视频级标签的监督下,定位未剪辑视频中的动作时间边界,并识别定位结果所对应的动作类别.由于缺少动作在时间上的标注信息,目前大多数弱监督时序动作定位方法通过聚合具有高激活值的显著动作特征来优化分类... 弱监督时序动作定位旨在于仅在视频级标签的监督下,定位未剪辑视频中的动作时间边界,并识别定位结果所对应的动作类别.由于缺少动作在时间上的标注信息,目前大多数弱监督时序动作定位方法通过聚合具有高激活值的显著动作特征来优化分类损失函数的方式训练动作定位网络,这会导致网络过度关注动作片段的关键部分,忽视了视频中部分难以分类的模糊动作片段,难以保证定位结果的完整性.基于上述问题,提出了一种具有多分支注意力机制的网络框架,分别对视频中的显著动作片段、显著背景片段和难以分类的模糊动作片段进行建模.同时,基于上述的多分支注意力权重,构建了3个相应的时域类激活序列优化动作分类损失函数,使网络能够分离视频中的显著动作特征与显著背景特征.为了使网络捕获更加完整的动作片段,基于对比学习设计了模糊动作对比损失函数,在显著特征的引导下细化视频中的模糊动作特征,使网络能够感知精确的动作时间边界,以避免完整动作的截断现象发生.所提方法在2个主流的弱监督时序动作定位数据集THUMOS-14和ActivityNet-1.2上的定位性能均超过了之前的方法.具体而言,所提方法的定位性能相比于之前的方法在上述两个数据集中分别提升了1.6%和1.3%,充分体现了所提方法的有效性. 展开更多
关键词 弱监督学习 时序动作定位 对比学习 类激活序列
在线阅读 下载PDF
基于双流卷积神经网络的时序动作定位 被引量:1
6
作者 王倩 范冬艳 +1 位作者 李世玺 张仕森 《软件导刊》 2020年第9期35-38,共4页
为提高三维卷积神经网络对时序动作定位的识别效率和准确率,提出一种基于双流卷积神经网络的多阶段时序动作定位模型。该模型首先运用多尺度分割生成视频段,然后依次通过建议网络选择建议区域、分类网络作为定位网络的初始化,最后通过... 为提高三维卷积神经网络对时序动作定位的识别效率和准确率,提出一种基于双流卷积神经网络的多阶段时序动作定位模型。该模型首先运用多尺度分割生成视频段,然后依次通过建议网络选择建议区域、分类网络作为定位网络的初始化,最后通过定位网络和非极大值抑制识别动作类别和动作起止时间。其中,建议网络、分类网络、定位网络使用稀疏采样的时序分割网络进行训练。实验证明,该模型可以有效进行时序动作定位,比目前较好的S-CNN网络获得了更好效果。 展开更多
关键词 时序动作定位 双流卷积神经网络 多阶段3D卷积神经网络 稀疏采样
在线阅读 下载PDF
基于关系建模的弱监督时序动作定位
7
作者 占永昆 杨文飞 张天柱 《中国科学技术大学学报》 CAS CSCD 北大核心 2021年第10期753-765,共13页
时序动作定位因其广泛的实际应用成为重要且具有挑战性的方向.由于全监督定位方法需要大量的人力对长视频进行视频帧或视频片段级别的细腻标注,近些年来,弱监督学习受到了越来越多的关注.弱监督动作定位在训练阶段只需提供视频级别类别... 时序动作定位因其广泛的实际应用成为重要且具有挑战性的方向.由于全监督定位方法需要大量的人力对长视频进行视频帧或视频片段级别的细腻标注,近些年来,弱监督学习受到了越来越多的关注.弱监督动作定位在训练阶段只需提供视频级别类别标签,即可定位出视频中动作的区间位置.然而,大多数现存的方法往往只对独立的视频片段进行分类损失约束,而忽略了这些视频片段之间的关系.本文提出一种新的关系感知网络实现了基于弱监督的行为时序定位.通过考虑对视频内和视频间的片段进行关系建模,从而学习出更加鲁棒的视频动作定位特征表示.具体来说,视频内关系模块的目的是使得网络预测出更加完整的动作,而视频间关系模块的目是将动作从高度依赖的背景中分离出来.通过在THUOUS14,ActivityNet1.2/1.3等三个公共基准定位数据集上进行实验,与最新的方法比,我们提出的方法取得了更好的结果. 展开更多
关键词 时序动作定位 弱监督学习 关系建模
在线阅读 下载PDF
基于时空信息融合的时序动作定位
8
作者 王倩 范冬艳 《智能计算机与应用》 2020年第6期31-36,共6页
时序动作定位任务需要识别出一段长视频中的动作类别以及动作的起止时间,候选区域的选择是影响到识别效果和效率的重要因素。提出一种基于时空特征融合的候选区域提取网络,充分利用视频分割段的时间特征和空间特征来判断是否为候选区域... 时序动作定位任务需要识别出一段长视频中的动作类别以及动作的起止时间,候选区域的选择是影响到识别效果和效率的重要因素。提出一种基于时空特征融合的候选区域提取网络,充分利用视频分割段的时间特征和空间特征来判断是否为候选区域。接着将候选区域输入到训练的CDC网络中进行帧级粒度上的动作分类。最后训练动作状态检测网络,对得到的候选区域进行修补,从而可以得到更为精确的动作发生的时间区域。在THUMOS'14数据集上进行实验,结果证明该方法可以有效地进行未剪辑视频的时序动作定位,相对现有方法达到了较高的精度。 展开更多
关键词 时序动作定位 时空特征 候选区域 CDC网络 动作状态检测网络
在线阅读 下载PDF
多类型提示互补的弱监督时序动作定位
9
作者 任小龙 张飞飞 +1 位作者 周琬婷 周玲 《中国图象图形学报》 北大核心 2025年第3期842-854,共13页
目的弱监督时序动作定位仅利用视频级标注来定位动作实例的起止时间并识别其类别。目前基于视觉语言的方法利用文本提示信息来提升时序动作定位模型的性能。在视觉语言模型中,动作标签文本通常被封装为文本提示信息,按类型可分为手工类... 目的弱监督时序动作定位仅利用视频级标注来定位动作实例的起止时间并识别其类别。目前基于视觉语言的方法利用文本提示信息来提升时序动作定位模型的性能。在视觉语言模型中,动作标签文本通常被封装为文本提示信息,按类型可分为手工类型提示(handcrafted prompts)和可学习类型提示(learnable prompts),而现有方法忽略了二者间的互补性,使得引入的文本提示信息无法充分发挥其引导作用。为此,提出一种多类型提示互补的弱监督时序动作定位模型(multi-type prompts complementary model for weakly-supervised temporal action location)。方法首先,设计提示交互模块,针对不同类型的文本提示信息分别与视频进行交互,并通过注意力加权,从而获得不同尺度的特征信息;其次,为了实现文本与视频对应关系的建模,本文利用一种片段级对比损失来约束文本提示信息与动作片段之间的匹配;最后,设计阈值筛选模块,将多个分类激活序列(class activation sequence,CAS)中的得分进行筛选比较,以增强动作类别的区分性。结果在3个具有代表性的数据集THUMOS14、ActivityNet1.2和ActivityNet1.3上与同类方法进行比较。本文方法在THUMOS14数据集中的平均精度均值(mean average precision,mAP)(0.1∶0.7)取得39.1%,在ActivityNet1.2中mAP(0.5∶0.95)取得27.3%,相比于P-MIL(proposal-based multiple instance learning)方法分别提升1.1%和1%。而在ActivityNet1.3数据集中mAP(0.5∶0.95)取得了与对比工作相当的性能,平均mAP达到26.7%。结论本文提出的时序动作定位模型,利用两种类型文本提示信息的互补性来引导模型定位,提出的阈值筛选模块可以最大化利用两种类型文本提示信息的优势,最大化其辅助作用,使定位的结果更加准确。 展开更多
关键词 弱监督时序动作定位(WTAL) 视觉语言模型 手工类型提示 可学习类型提示 分类激活序列(CAS)
原文传递
融合片段对比学习的弱监督动作定位方法
10
作者 党伟超 张磊 +1 位作者 高改梅 刘春霞 《计算机应用》 CSCD 北大核心 2024年第2期548-555,共8页
针对现有基于注意力机制的弱监督动作定位方法对动作边界处的片段容易错误分类的问题,提出一种融合片段对比学习的弱监督动作定位方法。首先,引入三个分支的注意力机制,分别测量每个视频帧是动作实例、上下文以及背景的可能性;其次,基... 针对现有基于注意力机制的弱监督动作定位方法对动作边界处的片段容易错误分类的问题,提出一种融合片段对比学习的弱监督动作定位方法。首先,引入三个分支的注意力机制,分别测量每个视频帧是动作实例、上下文以及背景的可能性;其次,基于得到的注意力值构建对应分支的类激活序列;然后,通过片段挖掘算法构造正负样本对;最后,利用片段对比学习引导网络将模糊片段正确归类。实验结果表明,当交并比(IoU)取值0.5时,在THUMOS14与ActivityNet1.3两个公共数据集上,所提方法的平均检测精度(mAP)分别达到了33.9%和40.1%,相较于DGCNN(Dynamic Graph modeling for weakly-supervised temporal action localization Convolutional Neural Network)弱监督动作定位模型在上述两个数据集上分别提升1.1和2.9个百分点,验证了所提方法的有效性。 展开更多
关键词 弱监督 对比学习 时序动作定位 注意力机制 类激活序列
在线阅读 下载PDF
视频动作定位中密集特征金字塔主干网络 被引量:1
11
作者 佟明蔚 毛琳 杨大伟 《大连民族大学学报》 2022年第5期412-417,共6页
针对视频动作定位算法中金字塔层数增加时间分辨率降低,导致细节特征不完整,进而影响预测结果不准确的问题,提出密集连接型特征金字塔主干网络。视频图像输入特征金字塔主干网络中,密集连接金字塔提取帧级特征和层级特征,实现特征提取... 针对视频动作定位算法中金字塔层数增加时间分辨率降低,导致细节特征不完整,进而影响预测结果不准确的问题,提出密集连接型特征金字塔主干网络。视频图像输入特征金字塔主干网络中,密集连接金字塔提取帧级特征和层级特征,实现特征提取阶段参考层、基础层特征与深层特征联系;帧级特征和层级特征通过预测阶段、动作起止时间及标签信息;预测阶段输出融合光流信息输出、动作起止时间及标签预测结果。在THUMOS14数据集的检测结果与AFSD相比,平均精度均值(mAP)提高0.4%,准确定位动作在视频中的起止时间和类别,可应用于智能监控等场景。 展开更多
关键词 时序动作定位 密集连接 特征金字塔 特征融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部