针对点云与图像的空间维度不同导致多模态特征难以对齐的问题,提出融合YOLOv8的多模态3D目标检测网络。首先,设计基于YOLOv8的数据增强模块将图像映射到三维空间,生成与点云对齐的伪云,并使用冻结权重的YOLOv8增强点云和伪云。然后,构...针对点云与图像的空间维度不同导致多模态特征难以对齐的问题,提出融合YOLOv8的多模态3D目标检测网络。首先,设计基于YOLOv8的数据增强模块将图像映射到三维空间,生成与点云对齐的伪云,并使用冻结权重的YOLOv8增强点云和伪云。然后,构建双流编码器并行提取多模态特征。最后,设计基于注意力机制的感兴趣区域(region of interest,RoI)特征融合模块和基于门控的RoI特征融合模块来聚合多模态RoI特征。在KITTI验证集上,提出的算法在困难级别对汽车、行人和骑行者的3D平均精度分别达到79.28%、58.70%和76.04%,较原始算法分别提高0.62%、3.07%和7.54%,验证了算法的有效性。展开更多
文摘针对点云与图像的空间维度不同导致多模态特征难以对齐的问题,提出融合YOLOv8的多模态3D目标检测网络。首先,设计基于YOLOv8的数据增强模块将图像映射到三维空间,生成与点云对齐的伪云,并使用冻结权重的YOLOv8增强点云和伪云。然后,构建双流编码器并行提取多模态特征。最后,设计基于注意力机制的感兴趣区域(region of interest,RoI)特征融合模块和基于门控的RoI特征融合模块来聚合多模态RoI特征。在KITTI验证集上,提出的算法在困难级别对汽车、行人和骑行者的3D平均精度分别达到79.28%、58.70%和76.04%,较原始算法分别提高0.62%、3.07%和7.54%,验证了算法的有效性。