lpl下注(中国)有限公司-谷歌联手哈佛大学改进NeRF视图合成技术,使图像渲染更真实准确

近日,哈佛大学和谷歌研究院表示,它们使用改进的新型 Ref-NeRF 模型显著提高了与视图相关的外观质量和场景合成视图中法向量的准确性。

神经辐射场(Neural Radiance Fields,NeRF)是一种视图合成技术,能够将场景由多层感知器(multilayer perceptron,MLP)参数化,呈现出三维场景的逼真图像。很多受它启发的产品被应用到动画、摄影等众多领域。

视图合成属于计算机视觉和图形学领域,即使用观察到的场景图像从新的相机视点渲染图像的任务。在可以密集捕捉场景图像的情况下,简单的光场插值技术可以高保真地呈现新的视图。

然而,在大多数场景下,光场的详尽采样是难以做到的。对于具有光滑表面的场景,一些方法显式地构建虚拟几何图形来解释反射的运动。

NeRF 将场景表示为一个粒子场,阻挡和发射依赖于视图的光。若仔细观察对与视图相关的外观渲染的话,会发现高光部分有光的伪影,并不是以现实合理的方式平滑移动。如下图最右列图片所示。

图 | 与之前表现最好的神经视图合成模型 Mip-NeRF(NeRF 的扩展)相比,新的 Ref-NeRF 模型显著提高了正常向量(顶部行)和视觉真实性(剩余行)(来源:arxiv)

近日,相关论文获得 2022 年计算机视觉和模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)最佳学生论文提名,并已在 2021 年 12 月以《Ref-NeRF: 神经辐射场的结构化视图相关的外观》(Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields)为题提交在arxiv上。

研究人员在论文里写道:“NeRF 比较善长解决平滑变化的外观结构,对于光泽表面的外观很难做到真实再现。它容易偏向于用各向同性发射来‘伪造’镜面反射,而不是由表面上的点发出的与视图相关的辐射,从而导致物体表现出半透明或雾状。”

这主要是由于 NeRF 将每个点的输出辐射作为观察方向的函数,不适合插值。因此,NeRF 只能从训练图像中观察到的特定观看方向渲染场景点的外观。

为弥补 NeRF 的不足,研究人员改进了 NeRF 的一个核心组件:与视图相关的外观的表示。这可以使底层函数更简单、更容易插值。

据此,他们提出了一种新的 Ref-NeRF 模型。该模型通过提供关于局部观看向量的反射作为输入,而不是观看向量本身来重新参数化 NeRF 的方向 MLP。

图 | Mip-NeRF 产生模糊的反射渲染图,并且不能正确模拟两种不同表面粗糙度的外观。Ref-NeRF(中间)几乎完美地重建了对象(来源:arxiv)

研究人员提到,其所做的改进可以用于提高基于 NeRF 的许多应用程序中的渲染质量。

Ref-NeRF 能将附近点的外观观察结果进行彼此分享,以在插值视图中达到更好的视图效果。此外,研究人员还引入了一种集成定向编码(Integrated Directional Encoding,IDE)技术,并将输出辐射结构为显式的漫射和镜面组件,以使反射辐射函数保持平滑,其并不受场景中的材料和纹理发生变化影响。

图 | 集成定向编码使定向 MLP 能够表示任何连续值粗糙度的反射辐射函数(来源:arxiv)

值得一提的是,这些使 Ref-NeRF 能够准确地插值视图相关外观的改进,依赖于 NeRF 体积几何估算法向量的查看向量能力。研究人员通过一种新型的体积密度调节器显著提高了 NeRF 的法向量的质量,并将体积密度集中在表面周围,使 Ref-NeRF 模型能够计算精确的反射矢量并呈现真实的镜面反射。

图 | NeRF 和 Ref-NeRF 中输出辐射的可视化(来源:arxiv)

研究人员通过将对 NeRF 的输出辐射进行重新参数化、集成定向编码、新型体积密度调节器等方法应用在 Mip-NeRF 之上,打造出了几乎是目前视图合成最优秀的神经表征 Ref-NeRF。

图 | Mip-NeRF 和 Ref-NeRF 架构的可视化(来源:arxiv)

新模型大大提高了镜面反射的真实效果。此外,研究人员还提到:“对于散发辐射的内部表征,Ref-NeRF 是可解释的。”这有助于场景编辑,可提升之前对高镜面或光滑物体的视图合成方法的质量。标准 NeRF 无法实现视觉上可信的场景编辑结果。

值得注意的是,尽管新模型对神经场景表示视图合成有所提升,但会额外增加一些计算,比如,相比计算标准位置编码,对集成定向编码进行评估会略慢;而相比 Mip-NeRF,空间 MLP 计算法向量慢约 25%。另外,对于反射方向的输出辐射重新参数化,Ref-NeRF 没有确切地模拟相互反射或近处照明。

总的来说,研究人员已经证明,先前的视图合成的神经表征不能准确地表示和渲染具有推测和反射的场景。而本次研究在捕捉和再现物体,以及场景丰富的逼真外观方面取得了重要进展。

-End-

参考:

https://arxiv.org/pdf/2112.03907.pdf