AI能通过一个词模仿你的笔迹,实力令人惊叹
FACEbook 最近发布了一项新技术,名为 TextstyleBRUSh,这是一种图像 AI,可以复制并再现图像中的文本风格。

通过这项技术,用户只需输入一个词,AI 就能完整地模仿你的书写风格,操作简单,效果令人惊艳。

此外,你还可以利用它在不同场景中替换文本。下面的图像左侧展示了原始场景,蓝色矩形中显示了单词;右侧则是文本替换后的效果。

从图中可以看出,AI 能够处理多种字体风格。下图左侧显示了输入的源样式,右侧则是新内容字符串,左右两侧的字体风格看起来完全一致。虽然与原图相比,输出的图像在视觉上略显模糊,但总体效果仍然可圈可点,显示出技术的优秀表现。

与其他字迹模仿 AI 相比,TextstyleBRUSh 的功能更为强大,它能够从更细致的角度分析文字风格,从而实现多种角度和背景下的字迹模仿。
以下是将酱油瓶替换为茶瓶的过程示例:

TextstyleBRUSh 是 FACEbook AI 推出的强大工具,借助单词输入即可完美复现个性化笔迹。这项技术的原理与文字处理应用中的样式笔刷工具相似,使得文字和风格可以分开处理。

其主要特点包括:
- 仅需一个单词即可复制照片中的文字风格。
- 使用此 AI 模型,用户可以编辑和替换图像中的文本。
- TextstyleBRUSh 是首个自监督的 AI 模型,能够通过单个示例词一次性替换手写和图像文本。
- 未来它在个性化信息和字幕等领域具有广阔的应用潜力,例如在增强现实 (AR) 中实现真实语言翻译。
- 研究者希望通过展示这项技术的能力和应用,推动相关领域的对话与研究,挖掘潜在应用,如防范深度假文本攻击。

TextstyleBRUSh 学习文本风格表征的能力,AI 图像生成技术发展迅速,能够重现历史场景或将照片转换为梵高等艺术风格作品。如今,FACEbook AI 已成功开发出能够替换场景和手写文本风格的 AI,只需一个单词作为输入。
尽管大多数 AI 系统能够完成特定任务,但构建一个灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,依然面临巨大挑战。这需要对许多文本样式的理解,不仅包括不同的字体和书写风格,还需处理文本的旋转、弯曲等问题,以及图像噪声的影响。
FACEbook AI 提出了 TSB(TextstyleBRUSh)架构。该架构采用自监督方法进行训练,没有使用目标风格监督,仅依靠原始风格图像。该框架能够自动识别图像的真实风格。在训练过程中,它假设每个词框都有真实值;而在推理阶段,采用单一源样式图像和新内容生成目标内容的新图像。

该生成器架构基于 styleGAN2 模型,但存在两个关键限制:
- styleGAN2 是一个无条件模型,通过随机潜在向量采样生成图像,而 TextstyleBRUSh 必须生成指定文本的图像。
- TextstyleBRUSh 生成的文本图像风格不受控制,文本风格涉及全局信息和细致比例组合。
研究者通过内容和风格表征来调节生成器,以解决上述限制。他们从特定层提取风格信息,并将其注入到生成器的每一层,以处理文本风格的多尺度特性。除了生成期望风格的目标图像外,生成器还创建了表示前景像素的软蒙版图像,从而能够控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

这项研究还引入了一种新的自监督训练准则,利用字体分类器、文本识别器和对抗式鉴别器来保持源风格和目标内容的一致性。通过使用预训练的字体分类网络评估生成器捕获输入文本风格的能力,同时使用预训练文本识别网络评估生成图像内容的能力,从而有效实现自监督训练。

表 2 显示了不同损失函数、风格特征扩展及训练 TSB 时 Mask 作用的消融实验结果,实验表明,TextstyleBRUSh 生成的图像在 MSE、PSNR、SSIM 等指标上均有提升。

表 3 列出了在三种数据集上测得的文本识别准确率,结果显示 TSB 的识别效果最佳,在 IC13 数据集上达到 97.2% 的准确率,在 IC15 数据集上为 97.6%,而在 TextVQA 数据集上为 95.0%。

表 4 提供了生成的手写文本的定量比较,将 TSB 方法与专为生成手写文本设计的 SOTA 方法进行了对比,结果表明 TSB 方法的 FID 分数明显优于以往的研究。

TextstyleBRUSh 证明了 AI 在文字生成领域的灵活性和准确性,但仍面临一些挑战,例如无法模仿金属表面或彩色字符等,FACEbook 希望通过这项研究拓展该技术的应用,突破翻译、自主表达与深度伪造研究之间的界限。

失败案例。
