研究人员推出电影级神经光图渲染技术
神经辐射场(NeRF)是一种能够生成人工智能驱动的三维环境和物体的技术。
尽管如此,这种图像合成技术通常需要较长的训练时间,并且在实时、高度互动的应用中存在局限。
为了解决这一问题,企业和研究机构提出了新视图合成(NVS)的概念。
最近,一篇名为《NeuRal LuMigRaph RendeRing》的研究论文声称,它在现有技术上取得了显著进展,通过机器学习流程实现了实时计算机图形(CG)渲染的多项步骤。

与传统方法相比,神经光图渲染在混合伪像的分辨率和遮挡处理方面有了显著提升。

这篇论文的作者包括来自斯坦福大学和全息显示技术公司的研究人员,还有谷歌的首席机器学习架构师、Adobe的计算机科学家,以及SToryfile的首席技术官。
体积捕获的原理基础在于拍摄主题的静态图像或视频,并利用机器学习技术来“填补”原始文档所未覆盖的视角。

上图来源于FACEbook AI于2019年发布的研究,展示了体积捕获的四个阶段:
1. 使用多个摄像头获取图像/画面;
2. 编码器/解码器架构(或其他形式)计算并关联视图之间的相关性;
3. 射线行进算法计算空间中每个点的体素(或其他三维几何单位);
4. 训练合成一个完整的实体,以实现实时操作。
迄今为止,这一数据密集的训练阶段使得新视图合成难以达到实时或高度响应的捕获效果。
实际上,新视图合成生成了一个完整的三维地图体积,将这些点拼接成一个传统的计算机生成网格,有效捕捉并连接实时CGI角色。
NeRF的方法依赖点云和深度图在捕获设备的稀疏视点间生成插值:

尽管NeRF能够生成网格,但大多数情况并未使用其创建体积场景。
与此相比,魏茨曼科学研究所于2020年10月发布的隐式可区分渲染(IDR)方法则利用从捕获数组自动生成的三维网格信息。

虽然NeRF在形状估计能力上不如IDR,但IDR无法匹敌NeRF在图像质量上的表现,且两者都需要大量资源进行训练和调整。
NLR的定制相机系统配备了16台GoPRo HERO7和6台中央Back-Bone H7Pro相机,其实时渲染的最低帧率为60fps。

相对而言,神经光图渲染采用SIREN(正弦表示网络)将各种方法的优点整合到自身的框架中,旨在生成可直接用于现有实时图形管道的输出。
过去一年中,SIREN已被应用于类似场景,并成为图像合成社区中业余爱好者Colabs的一个流行API调用。
然而,NLR的创新在于将SIREN应用于二维多视图图像监控。
在从阵列图像提取CG网格后,通过OpenGL对其进行栅格化,将网格的顶点位置映射到适当的像素点,并计算各种贡献图的融合。
最终生成的网格比NeRF的网格更具代表性,计算需求更低,并且不会在不需要细节的区域(如光滑的面部皮肤)中施加过多细节:

另一方面,NLR尚未具备动态照明或重点照明的能力,其输出仅限于阴影图和其他照明信息。研究人员计划在未来的工作中解决这一问题。
此外,论文承认由NLR生成的图形在精度上不及一些替代方法,也包括前述的魏茨曼科学研究。
利用神经网络从有限的照片序列中创建三维实体的概念早于NeRF,其相关研究可以追溯到2007年或更早。
在2019年,FACEbook的人工智能研究部门发表了一篇开创性论文,首次为基于机器学习的体积捕获生成提供了响应界面。
