【科研成果】提速2倍,画质提升!实验室团队提出神经渲染高效采样策略(CVPR 2025)

时间:2025-05-23浏览:40

本文介绍实验室团队在CVPR 2025上发表的一项工作,该工作旨在提升可泛化神经辐射场(NeRF)的渲染效率。

论文标题:Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

项目链接:https://github.com/KLMAV-CUC/GDB-NeRF

当前面临的挑战与研究动机

神经辐射场 (NeRF) 在新视角合成方面取得了显著的成果。然而,将NeRF泛化至新场景时,现有方法通常面临计算成本较高的问题,这主要是由于渲染过程中需要对每条光线进行密集采样。此外,与针对特定场景优化的NeRF不同,可泛化模型通常难以充分利用场景的先验信息进行加速。

这些因素限制了可泛化NeRF在需要较高实时性的场景中的应用。因此,本研究旨在探索一种能够提高渲染效率,同时努力维持或提升重建质量的方法。

我们提出的方法概述

我们注意到自然场景通常具有分块平滑的特性,这意味着在许多区域进行统一的密集采样可能存在冗余。基于此观察,我们提出了一种名为“深度引导的束采样 (Depth-Guided Bundle Sampling)”的策略。

该策略主要包含两个方面:

  1. 束采样 (Bundle Sampling):我们将目标视图中空间上相邻的一组光线(例如2x2或4x4像素对应的光线)组织成一个“束” (Bundle)。然后,我们对这个“束”进行集体的采样和特征提取,旨在减少对多条光线进行独立处理所带来的计算冗余。我们将每个“束”建模为一个从相机中心发出的圆锥,并在该圆锥内部采样一系列内切球体作为采样单元。

  2. 深度引导的自适应采样 (Depth-Guided Adaptive Sampling):在“束采样”的基础上,我们利用预测的场景深度信息来指导采样点的分配。具体而言,该方法会根据深度的置信度,在场景中几何结构较为复杂、深度变化较大的区域(如物体边缘)分配相对更多的采样点,而在较为平滑的区域则适当减少采样点。我们希望通过这种方式,能在保证重要细节重建的同时,减少总体的采样数量。

Pipeline

图1 将深度引导束采样策略用于ENeRF的网络架构

主要工作与实验发现

我们将提出的方法整合到现有的可泛化NeRF框架中,并在公开数据集上进行了实验评估。主要工作和发现如下:

  • 提出了一种束采样策略,通过对相邻光线束进行联合采样,以期减少采样数量并改善渲染速度和质量。
  • 引入了一种深度引导的自适应采样方法,该方法根据局部深度范围动态调整采样点数,实验结果显示这有助于提升渲染速度,在保持图像质量的同时,FPS有约50%的提升。
  • 在可泛化NeRF模型 (ENeRF) 和3D高斯溅射方法 (MVSGaussian) 上验证了该方法的适用性。
  • 实验结果表明,与一些现有的可泛化NeRF方法相比,应用了我们策略的模型在渲染质量和速度方面取得了一定的改进。例如,在DTU数据集上,ENeRF+Ours (2x2) 相比原始ENeRF,在3视角设置下PSNR提升了1.27 dB,FPS提升了47%。ENeRF+Ours (4x4) 的渲染速度达到了原始ENeRF的两倍以上。
  • 该方法允许用户通过调整束的大小等参数,在渲染质量和效率之间进行一定的权衡。

Rendering Quality vs. Speed on DTU Dataset

图2 DTU数据集上不同方法的渲染质量 (PSNR) 与速度 (FPS)。

技术方案简述

为实现上述目标,我们的方法包含以下几个主要技术环节:

  1. 球形采样与特征编码:对于每个“束”中的采样球体,我们将其投影到各个源视图中。根据其投影区域的大小,从源视图特征图的对应Mipmap层级中提取特征。这种方式旨在使特征能够反映采样区域的覆盖范围。

  2. 特征表示:为了平衡计算效率和细节保留,我们为每个采样球体编码了两种特征:一种是覆盖整个束区域的“联合束表示” (Joint Bundle Representation),另一种是针对束内各条原始光线提取的“射线专属表示” (Ray-Specific Representation),后者旨在捕捉高频细节。

  3. 自适应样本数分配:每个束沿其中心轴的采样点数量并非固定,而是根据预测的深度范围和预设的最小样本间距动态计算得出。

  4. 特征解码与图像合成:经过体渲染聚合后的联合束特征和射线专属特征,分别通过不同的网络模块解码,生成一个基础图像和一个细节增强层,两者叠加得到最终的渲染结果。

实验结果与分析

我们在包括DTU, Real Forward-facing和NeRF Synthetic在内的多个公开数据集上对方法进行了评估。

表1 DTU测试集 (512×640) 上的泛化能力量化结果。最佳结果以粗体突出显示,次佳结果以斜体突出显示。
方法3视角2视角
PSNR ↑SSIM ↑LPIPS ↓平均每条光线采样数FPS ↑PSNR ↑SSIM ↑LPIPS ↓
PixelNeRF19.310.7890.382960.019---
IBRNet26.040.9170.1911280.217---
MVSNeRF26.630.9310.1681280.41624.030.9140.192
ENERF27.610.9570.089219.525.480.9420.107
MatchNeRF26.910.9340.1591281.0425.030.9190.181
GNT26.390.9230.1561920.0124.320.9030.201
CG-NeRF28.210.9300.17042.56---
MuRF28.760.9610.077800.93425.610.9380.104
ConvGLR31.650.9520.0801280.825---
MVSGaussian28.210.9630.076121.525.780.947 0.095
ENERF+Ours (2×2)28.860.9640.0730.4228.626.390.9490.089
ENERF+Ours (4×4)28.210.9570.0880.1043.626.090.9420.105
MVSGaussian+Ours28.400.9620.076123.426.160.9460.093
表2 Real Forward-facing (640×960) 和 NeRF Synthetic (800×640) 数据集上的跨数据集评估结果。最佳结果以粗体突出显示,次佳结果以斜体突出显示。
方法设置Real Forward-facingNeRF Synthetic
PSNR ↑SSIM ↑LPIPS ↓PSNR ↑SSIM ↑LPIPS ↓
PixelNeRF3视角11.240.4860.7867.390.6580.411
IBRNet21.790.6710.27922.440.8740.195
MVSNeRF21.930.7950.25223.620.8970.176
ENERF23.630.8430.18226.170.9430.085
MatchNeRF22.430.8050.24423.200.8970.164
GNT22.980.7610.22125.800.9050.104
CG-NeRF23.930.8200.21025.010.9000.190
MuRF23.700.8600.18124.370.8850.117
MVSGaussian24.070.8570.16426.460.9480.071
ENERF+Ours (2×2)24.330.8600.16226.490.9480.075
ENERF+Ours (4×4)
23.840.8510.17426.000.9430.083
MVSGaussian+Ours
24.150.8580.16526.480.9470.070
MVSNeRF2视角20.220.7630.28720.560.8560.243
ENERF22.780.8210.19124.830.9310.117
MatchNeRF20.590.7750.27620.570.8640.200
GNT20.910.6830.29323.470.8770.151
MuRF22.550.8200.21822.960.8660.137
MVSGaussian23.110.8340.17525.060.9370.079
ENERF+Ours (2×2)23.060.8240.18625.010.9370.087
ENERF+Ours (4×4)
23.060.8260.18724.650.9320.098
MVSGaussian+Ours
23.130.8340.17525.100.9370.079

这些数据显示了在应用我们的方法后,ENeRF在PSNR和FPS指标上均有所改善。从定性结果(如下图所示)来看,我们的方法生成的图像在细节表现和伪影抑制方面,与一些现有方法相比也展现了有竞争力的效果。

Qualitative comparison

图3 定性结果比较

总结与展望

本研究提出了一种深度引导的束采样策略,旨在提升可泛化神经辐射场的渲染效率和图像质量。实验结果表明,该方法在多个基准数据集上取得了一定的积极效果。通过对相邻光线进行分组处理并结合深度信息进行自适应采样,我们的方法为减少计算冗余提供了一个可行的思路。

我们认为这项工作是对现有可泛化新视角合成技术的一个补充。未来的研究方向可能包括探索更优的束定义方式、更高效的特征聚合机制,以及将此策略应用于更广泛的三维视觉任务中。我们希望这项研究能为相关领域的研究者提供一些有益的参考。

感谢您的阅读。相关论文和代码已公开,欢迎查阅和交流。

查阅GitHub项目及论文