互联网资讯 / 人工智能 · 2024年1月25日

谷歌 Bard 公测表现评测与竞争压力分析

谷歌刚刚开放公测的生成式 AI 工具 Bard,在回答一些敏感问题时,甚至会直接支持对谷歌自身的反垄断监管。这种“不给自家留情面”的表现,也让外界对 Bard 的能力、立场和可靠性产生了更高关注。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

Bard 终于进入公开测试

本周二,谷歌宣布 Bard 推出测试版本,并开始分批向已注册用户开放。不过,目前 Bard 仅向美国和英国用户提供体验,语言也暂时只支持英语,其他地区和更多语种仍需等待后续更新。

对于谷歌来说,Bard 是近年来最受瞩目的新产品之一,也被视为影响其未来竞争力的重要项目。虽然谷歌早在 2 月初就对外展示过 Bard,但当时并未真正开放使用,只是在公司内部以及少量受邀测试者之间进行试验。

之所以推进谨慎,与此前的一次失误有关。2 月初 Bard 在公开演示时曾出现事实性错误,涉及对韦伯太空望远镜的介绍。尽管这个错误较为专业,却仍然引发市场强烈反应,导致谷歌母公司股价单日大跌,市值蒸发巨大。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

在这样的背景下,谷歌高层对 Bard 的公开测试明显更加保守。谷歌 CEO 皮查伊在内部备忘录中表示,公司以相对负责的方式推进研发,并邀请了不同背景和立场的约 1 万名测试者参与评估,希望通过持续反馈来改进产品。

从表态来看,谷歌也在提前为 Bard 可能出现的问题做心理预期管理。随着更多用户加入测试,产品既可能带来惊喜,也可能暴露新的不足。

与此同时,谷歌也反复强调,Bard 并不是搜索引擎的替代品,而更像是搜索体验之外的补充工具。目前 Bard 以独立网页对话框形式出现,回答完成后会附带跳转到谷歌搜索的入口。

ChatGPT 带来的外部压力

过去几个月里,生成式 AI 领域最受关注的产品无疑是 ChatGPT。它让普通用户第一次大规模感受到对话式 AI 的能力,也迅速带动了新一轮科技行业竞争。

微软持续加大对 OpenAI 的投入,并将相关能力整合进自家云平台、办公软件和搜索产品中,进一步把 AI 变成核心卖点。这对长期在搜索市场占据主导地位的谷歌形成了直接压力。

事实上,谷歌并不是生成式 AI 的后来者。早在 2015 年,谷歌就开始相关研发,2021 年也推出过对话语言模型 LaMDA。但在产品落地方面,谷歌始终更倾向于谨慎推进。

此前,LaMDA 曾因“是否具备情感”争议引发舆论风波,这也让谷歌对 AI 的安全性、准确性和社会影响保持更强警惕。ChatGPT 发布后,谷歌内部也曾担忧:如果在技术尚未成熟时仓促推出类似产品,可能会损害用户对谷歌信息质量的信任。

不过,外部竞争已经让谷歌不得不加快节奏。为了应对市场变化,谷歌此前已将生成式 AI 项目提升至更高优先级,集中更多资源推进产品上线。

这也让 Bard 的发布显得两难:推出太慢,市场会怀疑谷歌的创新能力;推出太急,产品一旦出错,又会放大外界失望情绪。谷歌管理层在公测阶段不断强调“持续改进”,正反映了这种压力。

联网能力是 Bard 的核心优势

从实际体验来看,Bard 相比早期版本 ChatGPT 的一个明显优势,是能够依托谷歌的信息体系获取较新的内容,并据此生成回答。过去 ChatGPT 的训练数据时间范围较早,面对最新新闻和实时事件时存在明显局限,而 Bard 在这方面表现更灵活。

Bard 可以回答当天比赛比分、新闻进展、股价走势等时效性较强的问题。虽然测试中仍能感受到一定延迟,并非完全实时,但相比单纯依赖旧训练数据的模型,它在处理新近事件时确实更有优势。

例如,针对美国政治新闻和金融突发事件,Bard 能够给出较为简洁但结构完整的概述。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

在出行、餐饮、酒店等生活场景中,Bard 的能力看起来也很自然,毕竟这些本就是谷歌生态擅长覆盖的领域。不过,它并非始终准确。测试中,当用户询问某条航线的最短飞行方案时,Bard 一度给出错误航班信息,之后才被修正。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

值得注意的是,OpenAI 也在通过插件机制补足实时联网短板。随着第三方服务接入,ChatGPT 同样开始具备订票、订餐、查询资料和调用协作工具的能力。也就是说,Bard 当前最突出的优势,未必能长期保持。

基础对话能力成熟,但细节仍不完善

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

在常见任务上,例如做简单计算、讲笑话、写短文或生成情诗,Bard 的表现比较稳定。这类基础指令对当前主流大语言模型来说都不算困难,Bard 还会提供不同版本的文本选择,用户也可以直接复制结果。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

在办公辅助方面,Bard 也能承担一些日常任务,比如起草商务邮件、整理笔记、撰写简短内容、生成表格思路或做初步分析。不过,某些功能依赖与谷歌生态配合,例如文件上传需要借助 Google Drive。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

但从细节看,Bard 仍然像一款尚未完全打磨成熟的产品。网页端虽然提供了语音输入入口,实际却未必能顺畅使用;它也宣称支持多语言翻译,但在一些场景下又无法完成任务。这些表现都说明,Bard 目前仍处于持续补全阶段。

ChatGPT阴影之下的谷歌Bard实测:珠玉在前

在编程能力方面,Bard 的口碑暂时不如竞争对手。部分开发者反馈认为,它在代码场景下对实际需求的理解不够深入,回答质量、代码展示体验以及特定语言问题处理,都与 ChatGPT 存在差距。

会表达观点,但信息来源不总是清晰

Bard 的一个特点,是它并不总是维持完全中性的“工具”姿态。谷歌方面也承认,类似的大语言模型会基于公开内容训练,因此在涉及政治人物、名人或社会议题时,可能呈现正面或负面的倾向,甚至对争议问题给出具有立场色彩的表述。

这带来两个问题。第一,Bard 很多时候不会清晰标注信息来源,用户需要自行判断准确性。第二,用户往往难以了解它是如何得出结论的,因此也更容易把模型生成的观点误当作可靠事实。

在社会议题高度分化的环境下,这种不透明性可能引发新的争议,尤其是在涉及政治、法律和公共政策时。

一个颇具代表性的例子是,有测试者询问 Bard 如何看待美国司法部针对谷歌的反垄断诉讼。Bard 给出的回答并没有偏袒母公司,而是直接指出谷歌可能通过收购竞争对手、限制广告交易和施压合作网站等方式损害市场竞争,并支持法院采取措施打破垄断。

从这个角度看,Bard 的回答确实显得“立场鲜明”。这既说明模型未必会因出自谷歌而自动维护谷歌,也反映出大语言模型在敏感议题上的不可控性仍然存在。

AI 竞争还在持续升级

如果把时间拨回到更早之前,Bard 这样的表现本可以让市场感到惊艳。但在 ChatGPT 已率先教育用户数月之后,Bard 的上线难免少了一些新鲜感。更何况,它目前还不支持更多语言,不支持图像能力,编程表现也未形成明显优势,国际市场覆盖范围同样有限。

而就在 Bard 公测前后,行业竞争已经进一步升级。更强的新模型、更丰富的多模态能力以及更广泛的生态接入,正在不断抬高用户预期。这意味着,Bard 面对的并不是一次单纯的产品发布,而是一场长期而高强度的 AI 能力竞赛。

总体来看,Bard 已经展现出谷歌在信息整合和产品落地方面的基础实力,尤其是联网获取新信息的能力具备现实价值。但从准确性、功能完整度、编程能力到多语言支持,它距离真正成熟还有不小空间。对谷歌而言,Bard 的意义不仅在于推出一款聊天机器人,更在于证明自己仍然能够在新一轮 AI 竞赛中保持核心位置。