互联网资讯 · 2024年1月25日

谷歌发布 Gemini AI 模型:性能对比 GPT-4 更进一步,语言理解测试超过人类

12月7日,谷歌正式发布新一代人工智能模型 Gemini,并将其称为目前最强大、最通用的模型体系之一。

谷歌发布能力最强AI模型Gemini

Gemini 是一款原生多模态模型,能够同时理解、处理并组合多种类型的信息,包括文本、代码、音频、图像和视频。首个版本 Gemini 1.0 提供三种不同规格,分别面向不同场景。

谷歌发布能力最强AI模型Gemini

这套模型体系覆盖“文本、代码、音频、图像、视频”五类信息处理能力。

其中,Gemini Ultra 定位于最高复杂度任务,属于能力最强的版本;Gemini Pro 面向更广泛的通用任务;Gemini Nano 则针对终端设备优化,强调本地运行效率。

谷歌发布能力最强AI模型Gemini

目前,Gemini 1.0 已开始进入多个产品与平台,包括智能助手和 Pixel 8 Pro 等设备。接下来几个月,这一模型还将逐步扩展到搜索、广告、浏览器以及办公协作等更多服务中。

从12月13日起,开发者和企业用户可通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 使用 Gemini Pro。

谷歌发布能力最强AI模型Gemini

谷歌首席执行官桑达尔·皮查伊表示,Gemini 标志着公司人工智能发展的新阶段,并强调该模型在多项主流基准测试中展现出了领先表现。

Gemini Ultra 的基准表现

DeepMind 团队也对 Gemini 的能力进行了进一步说明。

谷歌发布能力最强AI模型Gemini

官方介绍称,在涵盖自然图像理解、音频与视频理解、数学推理等方向的 32 项常用学术基准测试中,Gemini Ultra 有 30 项成绩超过当时的先进水平。

谷歌发布能力最强AI模型Gemini

在 MMLU(大规模多任务语言理解)测试中,Gemini Ultra 的得分达到 90.0%,成为首个在该测试中超过人类专家水平的模型;作为对比,GPT-4 的成绩为 86.4%。

谷歌发布能力最强AI模型Gemini

在图像理解方面,Gemini Ultra 在 MMMU 基准上的得分为 59.4%,高于 GPT-4V 的 56.8%。

谷歌发布能力最强AI模型Gemini

目前,Gemini Ultra 仍在进行大规模信任与安全评估。谷歌表示,在模型进一步完善的过程中,将先向部分客户、开发者、合作伙伴以及安全与责任领域专家开放早期测试,并计划于明年初面向开发者和企业用户推出。

Gemini 的能力展示

Gemini 1.0 的一个重要特点是复杂推理能力。它能够从大量文档中进行阅读、筛选和理解,并提取有价值的结论。

在演示中,工程团队展示了 Gemini 从约20万篇科学研究论文中提取关键信息的过程。由于某研究领域自2021年以来新增了大量文献,需要将这些内容补充到此前的研究框架中,传统方式往往需要研究人员手动整理。

借助 Gemini,这一过程可以自动完成模型筛选、归类和提炼,仅用较短时间就完成了海量论文的阅读与分析,并生成更新后的可视化结果。

谷歌发布能力最强AI模型Gemini
谷歌发布能力最强AI模型Gemini
谷歌发布能力最强AI模型Gemini
谷歌发布能力最强AI模型Gemini

谷歌认为,这种从海量数据中发现隐藏信息和潜在规律的能力,有望推动科学、金融等多个领域更快取得新进展。

由于 Gemini 1.0 可以同时理解文本、图像和音频等不同形式的信息,因此它更适合处理含有细微差别、上下文复杂的问题。在数学、物理等需要严密推理的学科中,这一能力也得到了重点展示。

谷歌发布能力最强AI模型Gemini
谷歌发布能力最强AI模型Gemini

演示内容还显示,Gemini 1.0 不仅能够求解复杂数学题,还能总结同类题型的规律与解题思路。

在编程方面,Gemini 1.0 支持理解、解释并生成高质量代码,覆盖 Python、Java、C++、Go 等多种主流语言。

谷歌发布能力最强AI模型Gemini

谷歌提到,两年前推出的 AlphaCode 曾是首个在编程竞赛中达到较高水平的 AI 代码生成系统。如今,基于 Gemini 构建的新版本 AlphaCode 2 进一步提升了解题能力,官方称其可解决的问题数量达到上一代的两倍,编程表现超过约85%的人类程序员。

除模型本身外,谷歌还同步发布了新一代 Cloud TPU v5p 系统,用于支持前沿 AI 模型训练。该平台被定位为当前更强大、更高效且具备更高扩展性的 TPU 系统,将用于加速 Gemini 等大模型的开发,并帮助开发者和企业更快训练生成式 AI 模型、推出新产品与新功能。