轨道交通的运营和维护需要高精度的物体检测和跟踪技术,以确保乘客安全和系统正常运行。近年来,随着Vision in Transformer的提出,融合注意力机制的大模型在物体检测领域取得了广泛的应用,但是在实现高精度与高鲁棒性的模型训练的过程中...轨道交通的运营和维护需要高精度的物体检测和跟踪技术,以确保乘客安全和系统正常运行。近年来,随着Vision in Transformer的提出,融合注意力机制的大模型在物体检测领域取得了广泛的应用,但是在实现高精度与高鲁棒性的模型训练的过程中,注意力机制对数据的需求量是巨大的。在处理图像数据的过程中,往往会伴随着大量人力、物力的消耗。为降低数据处理成本,文章提出了一种融入了注意力机制的半监督物体检测策略,以提高模型的鲁棒性。研究结果表明,在只处理了10%数据的前提下,采用Grounding DINO和YOLO-World等检测器作为算法的主干,然后在算法的head层采用CBAM、CoTAttention、SEAttention等融合注意力机制,在数据集上达到了0.70±0.04的mAP精度,相比于传统的半监督物体检测,可以得到5.14%的mAP增益,为后续轨道交通物体检测大模型的研究提供参考。展开更多
文摘轨道交通的运营和维护需要高精度的物体检测和跟踪技术,以确保乘客安全和系统正常运行。近年来,随着Vision in Transformer的提出,融合注意力机制的大模型在物体检测领域取得了广泛的应用,但是在实现高精度与高鲁棒性的模型训练的过程中,注意力机制对数据的需求量是巨大的。在处理图像数据的过程中,往往会伴随着大量人力、物力的消耗。为降低数据处理成本,文章提出了一种融入了注意力机制的半监督物体检测策略,以提高模型的鲁棒性。研究结果表明,在只处理了10%数据的前提下,采用Grounding DINO和YOLO-World等检测器作为算法的主干,然后在算法的head层采用CBAM、CoTAttention、SEAttention等融合注意力机制,在数据集上达到了0.70±0.04的mAP精度,相比于传统的半监督物体检测,可以得到5.14%的mAP增益,为后续轨道交通物体检测大模型的研究提供参考。