百度回应文生图争议：能力来自开源模型训练数据，符合行业惯例

针对近期围绕文生图功能的讨论，百度发布说明称，文心一言是百度自研的大语言模型，其图像生成能力则来自文心跨模态大模型 ERNIE-ViLG。

百度表示，大模型训练所使用的是全球互联网公开数据，这一做法符合当前行业通行方式。官方同时提到，随着后续文生图功能持续进行调优和迭代，相关能力也会进一步提升。

此外，百度还称，文心一言正在用户实际使用过程中不断完善和成长，希望外界给予技术和产品更多时间与信心，理性看待相关讨论。

文生图案例引发关注

在功能上线后，不少用户分享了让文心一言“作画”的结果，其中一些作品因理解偏差而引发热议。

例如，有用户让它画“红烧狮子头”，结果生成的内容更接近“红色的狮子头”，呈现出一种字面化理解。

再如，当用户输入“毛血旺”时，生成结果并没有准确对应这道菜，而是出现了带有夸张联想意味的画面。

类似情况还出现在“驴肉火烧”这一提示词上，画面中直接出现了“驴”和“火”的组合，带有明显的逐字拆解特征。

“老婆饼”也成为讨论较多的例子之一。模型最初给出的画面是“一个女人和一个饼”，与人们熟悉的食物形象存在偏差。

不过，当用户进一步细化描述，比如要求“画一块老婆饼”，生成结果就开始更接近日常所见的食品样貌。

如果继续补充场景信息，例如“画一盒放在玻璃橱窗里的老婆饼”，最终呈现的内容也会更加贴近真实商品展示效果。

这些略显“答非所问”的图像作品，让不少网友觉得颇具娱乐性。有人认为，用它聊天未必总是流畅，但看它对中文词语进行字面联想式绘图，反而很有趣；也有人借此调侃，现阶段相关能力距离真正替代人工还有明显差距。