基于局部对齐单目视频深度的三维场景重建被引量：1

Toward 3D scene reconstruction from locally scale-aligned monocular video depth

在线阅读下载PDF

导出

摘要单目深度估计方法在各种场景下已经取得了较强的鲁棒性,该类方法通常预测尺度偏移量未知的不变仿射深度而非度量深度,因为收集大规模的不变仿射深度训练数据比收集度量深度训练数据容易得多。然而,在某些基于视频的应用场景中,例如视频深度估计和三维场景重建,每帧预测的深度中存在的未知比例和偏移量值可能会导致预测的深度不一致。为了解决该问题,我们提出了一种基于局部加权线性回归的方法,通过利用稀疏锚点恢复深度的尺度图和偏移量图,以保证连续帧之间的一致性。大量的实验表明,我们的方法可以在几个零样本基准上显著降低现有技术方法的Rel误差(相对误差)。此外,我们收集了630万张RGBD图像对来训练鲁棒的深度模型。通过局部恢复尺度和偏移量,我们的ResNet50-backbone模型性能甚至超过了最先进的DPT ViT-Large模型。与基于几何的重建方法相结合,我们提出了一种新的稠密三维场景重建流程,既能受益于稀疏点的尺度一致性,又能受益于单目深度估计方法的鲁棒性。通过对视频的每一帧依次预测深度图,我们可以重建出准确的三维场景几何信息。 Monocular depth estimation methods have achieved excellent robustness on diverse scenes,usually by predicting affine-invariant depth,up to an unknown scale and shift,rather than metric depth in that it is much easier to collect large-scale affine-invariant depth training data.However,in some video-based scenarios such as video depth estimation and 3D scene reconstruction,the unknown scale and shift residing in per-frame prediction may cause the predicted depth to be inconsistent.To tackle this problem,we propose a locally weighted linear regression method to recover the scale and shift map with very sparse anchor points,which ensures the consistency along consecutive frames.Extensive experiments show that our method can drop the Rel error(relative error)of existing state-of-the-art approaches significantly over several zero-shot benchmarks.Besides,we merge 6.3 million RGBD images to train robust depth models.By locally recovering scale and shift,our produced ResNet50-backbone model even outperforms the state-of-the-art DPT ViT-Large model.Combined with geometry-based reconstruction methods,we formulate a new dense 3D scene reconstruction pipeline,which benefits from both the scale consistency of sparse points and the robustness of monocular methods.By performing simple per-frame prediction over a video,the accurate 3D scene geometry can be recovered.

作者徐光锴赵峰 Guangkai Xu;Feng Zhao(National Engineering Laboratory for Brain-inspired Intelligence Technology and Application,School of Information Science and Technology,University of Science and Technology of China,Hefei 230027,China)

机构地区中国科学技术大学信息科学技术学院类脑智能技术及应用国家工程实验室

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2024年第4期13-22,12,66,共12页 JUSTC

基金 supported by the Anhui Provincial Natural Science Foundation (2108085UD12)。

关键词三维场景重建单目深度估计局部加权线性回归 3D scene reconstruction monocular depth estimation locally weighted linear regression

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献1

1魏文力,黄陆明,安城辉,张彩友.基于相机阵列的视频稳像方法[J].西安理工大学学报,2022,38(1):83-88. 被引量：1

引证文献1

1杨礼华,陈泽钰,施俊杰,潘海朗,杨劲松,LIU Jianguo.基于深度学习的水面深度视频稳像[J].移动通信,2024,48(11):86-91.

1李钦荣,马驰,胡辉,郭强.基于改进YOLOv3的雨天环境车辆目标检测研究[J].电脑编程技巧与维护,2024(4):144-146.
2耿召民,胡万宝,钱隆.基于有限域结构的LRC码的存在性讨论[J].安庆师范大学学报（自然科学版）,2023,29(4):1-5.
3钟雷声,夏辉,陈佳林.基于双目视觉和单线激光雷达的三维场景重建系统和算法[J].测绘通报,2024(5):48-52. 被引量：1
4葛炳钢,张旭雯,刘岁,杨亚,周铁军,傅冬和.基于轻量级神经网络MobileNetV3-large的黄茶闷黄程度判别[J].湖南农业大学学报（自然科学版）,2024,50(1):91-99. 被引量：1
5陈启,任迎霞,邓向武,张威.基于PaddlePaddle的杂草模型量化部署与结构优化研究[J].长江信息通信,2024,37(2):132-137.
6秦旻,杨小丁,赵毅.透水沥青混合料抗堵塞性能及功能恢复研究[J].公路交通科技,2023,40(10):10-17. 被引量：2
7张佳维,王艳,孟名柱.MobileNetV3识别甲状腺良恶性结节的超声图像[J].中国医学计算机成像杂志,2024,30(2):243-249.
8管玉梅.基于三维重建的混凝土结构裂缝量化方法[J].电视技术,2024,48(4):14-19.
9郭瑞萍,王海荣,王栋.图文数据的多级关系分析与挖掘方法[J].北京航空航天大学学报,2024,50(2):684-694. 被引量：1
10罗茜雅,李红军,王子怡,甘晨灼,胡正浩.基于自注意力机制和平均池化下图卷积网络的商品新闻事件抽取[J].成都理工大学学报（自然科学版）,2024,51(3):500-512.

中国科学技术大学学报

2024年第4期

浏览历史

内容加载中请稍等...

基于局部对齐单目视频深度的三维场景重建被引量：1

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于局部对齐单目视频深度的三维场景重建 被引量：1

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于局部对齐单目视频深度的三维场景重建被引量：1