互联网资讯 / 人工智能 · 2024年1月25日

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

针对近期围绕文生图功能的讨论,百度发布说明称,文心一言是百度自研的大语言模型,其图像生成能力则来自文心跨模态大模型 ERNIE-ViLG。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

百度表示,大模型训练所使用的是全球互联网公开数据,这一做法符合当前行业通行方式。官方同时提到,随着后续文生图功能持续进行调优和迭代,相关能力也会进一步提升。

此外,百度还称,文心一言正在用户实际使用过程中不断完善和成长,希望外界给予技术和产品更多时间与信心,理性看待相关讨论。

文生图案例引发关注

在功能上线后,不少用户分享了让文心一言“作画”的结果,其中一些作品因理解偏差而引发热议。

例如,有用户让它画“红烧狮子头”,结果生成的内容更接近“红色的狮子头”,呈现出一种字面化理解。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

再如,当用户输入“毛血旺”时,生成结果并没有准确对应这道菜,而是出现了带有夸张联想意味的画面。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

类似情况还出现在“驴肉火烧”这一提示词上,画面中直接出现了“驴”和“火”的组合,带有明显的逐字拆解特征。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

“老婆饼”也成为讨论较多的例子之一。模型最初给出的画面是“一个女人和一个饼”,与人们熟悉的食物形象存在偏差。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

不过,当用户进一步细化描述,比如要求“画一块老婆饼”,生成结果就开始更接近日常所见的食品样貌。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

如果继续补充场景信息,例如“画一盒放在玻璃橱窗里的老婆饼”,最终呈现的内容也会更加贴近真实商品展示效果。

百度回应文生图争议:能力来自开源模型训练数据,符合行业惯例

网友反应不一

这些略显“答非所问”的图像作品,让不少网友觉得颇具娱乐性。有人认为,用它聊天未必总是流畅,但看它对中文词语进行字面联想式绘图,反而很有趣;也有人借此调侃,现阶段相关能力距离真正替代人工还有明显差距。