轻松创作精美绘画的矢量神经风格画笔
在 CVPR 2021 的一篇论文中,来自网易伏羲与密歇根大学的研究团队提出了一种图像到绘画转换的新方法,能够生成生动且可控风格的艺术作品。目前,该方法的实现代码已经开源。
论文地址:https://aRxiv.oRg/abs/2011.08114
Github 地址:https://Github.coM/jiupinjia/stylized-neuRal-pAInting
与以往逐像素预测的风格迁移方法不同,该研究的方法通过在矢量空间中生成具有物理意义的画笔参数,随后可用于渲染。由于画笔本身不可微,研究团队设计了一种新的神经渲染器来模拟画笔行为,将画笔预测问题转化为参数空间内的搜索问题,以最大化渲染输出与输入图像之间的相似度。研究还揭示了搜索过程中的零梯度问题,并提出了从最优搬运的角度来解决此问题。
此外,该研究识别出之前神经渲染器存在的参数耦合问题,并重新设计了渲染网络。新的网络包含栅格化网络与着色网络,能够更好地解耦形状与颜色。实验结果表明,该方法在全局和局部纹理层面上实现了更高的真实度。该方法还可以在神经风格迁移框架下进行联合优化,以进一步迁移其他画作的视觉效果。
生成一幅向日葵画作。
该研究的主要贡献包括:
- 提出了一种全新的基于画笔的图像到绘画转换方法,将画笔预测问题转化为参数搜索问题进行求解,并能在神经风格迁移框架下进行联合优化,实现风格化效果。
- 揭示了参数搜索中的零梯度问题,并从最优搬运的视角分析画笔优化,引入可微的搬运损失函数以改善画笔的收敛性与绘画效果。
- 设计了一种新的神经渲染框架,包含双通道渲染管线(栅格化 + 着色),能够更好地处理画笔形状与颜色的解耦,性能优于以往的神经渲染器。
神经风格画笔
该研究的核心由三个功能模块组成:1)生成画笔图像的神经渲染器;2)可微画笔混合器,用于组合多个画笔;3)用于度量输入与输出图像相似度的模块。
神经风格画笔解决了艺术绘画参数化的问题。对于给定的空白画布 h0,该方法逐步将画笔叠加至该画布。例如,在第 t 步,经过训练的神经渲染器 G 将一组画笔参数 Xt 渲染为前景图像 st 和对应的透明度遮罩。然后,该方法利用软混合的方式将当前画布、新增画笔与对应遮罩进行叠加,确保整个过程是可微的:
最终,该方法将所有 T 步的画笔参数收集在一起,并在自监督的方式下搜索画笔参数的最优解,以使最终渲染输出 hT 与输入图像尽可能相似。
假定是用于度量画 hT 与输入图像的相似度损失函数,该方法直接在参数空间内优化所有输入画笔,最小化相似度损失函数,并利用梯度下降更新画笔参数。
神经渲染器
神经风格画笔的核心模块是神经渲染器。以往的神经渲染器只能处理较为简单的渲染场景,而在复杂场景中,如过渡色与画笔纹理,难以有效表达耦合的形状与颜色。该研究借鉴传统渲染管线,设计了双通道神经渲染器,有效解决颜色、形状与材质的耦合问题。
新的神经渲染器由两个子网络构成:着色网络 Gs 和栅格化网络 GR,输入的画笔参数 X 被分为颜色、形状与透明度三组。着色网络 Gs 由多层转置卷积层构成,用于生成可靠前景颜色的画笔;栅格化网络 GR 设计为位置编码器与像素解码器,忽略颜色信息,从而生成锐利边缘的画笔轮廓。最终,画笔前景图像 s 可以根据轮廓图像对颜色图像进行掩膜得到,而透明度遮罩则通过输入的透明度对轮廓图像进行缩放得到。
该研究利用标准逐像素回归损失函数对上述渲染器进行训练。
像素相似度与零梯度问题
神经风格画笔创作的关键在于相似度的定义,例如逐像素的损失函数可直接用于衡量渲染结果与输入图像之间的相似度。然而,神经风格画笔并非仅在像素空间中优化,还需优化画笔参数,此时逐像素损失函数未必保证有效的梯度下降。特别是在渲染的画笔与真值不重叠时,容易产生零梯度问题。该研究进一步引入最优搬运损失函数来解决此问题。
最优搬运损失函数
该研究定义最小搬运功(即 Wasserstein distance)为画布与输入图像间的相似度度量。对于给定的画布 h 和输入图像,归一化像素值被定义为概率边际函数。研究者提供了经典最优搬运距离的平滑版本,即著名的 Sinkhorn distance,具有良好的数学性质,且相较于原始版本计算成本大幅降低。通过引入拉格朗日乘子和额外的熵约束,上述优化问题可进一步表达为新的形式。
基于上述形式,最优搬运损失函数可轻松整合进参数搜索流程,并与其他损失函数联合优化。因此,神经风格画笔的总相似度损失函数定义如下:
与神经风格迁移联合优化
由于神经风格画笔在参数搜索范式下实现,因此天然适合神经风格迁移框架。研究者进一步将风格损失函数融入神经风格画笔,以实现风格化输出。扩展后的相似度度量函数可定义为新的形式。
实验 风格化绘画生成实验
得益于联合损失函数的设计,神经风格画笔不仅能够生成逼真的艺术作品,同时还可生成风格化的渲染结果。此外,由于画笔参数具有明确的物理意义,因此在风格化输出时还可以进一步控制风格的范围(颜色或材质)。
对比实验
以往的绘画参数化方法主要依赖增强学习实现,例如 “learning-to-paint” 算法,而神经风格画笔则通过引入神经渲染器成功解决了画笔不可微的问题。因此,相较基于 RL 的方法,神经风格画笔能够生成更为逼真的结果。
除了与以往方法进行对比,研究者还与人工画作进行了比较,取得了优良的生成效果。
受控实验
研究者还分别探讨了搬运损失函数与双通道神经渲染器的效果。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
[[[IMG_6]]]
[[[IMG_7]]]
[[[IMG_8]]]
