互联网资讯

具备任意输入输出能力的多模态大模型

2026年5月20日 ·
openmagic ad

具备任意输入输出能力的多模态大模型

最新消息显示,某科技公司宣布推出旗舰级多模态大模型 Gemini Omni,宣称具备“任意输入、任意输出”的核心能力,旨在实现文本、图像、音频、视频等多模态信息的互相理解与自由生成。

谷歌发布旗舰多模态大模型Gemini Omni 可实现“任意输入、任意输出”能力

Gemini Omni 以该公司长期积累的世界模型 Genie、图像模型 Nano Banana、视频模型 Veo 为基础,构建了完整的全模态 AI 框架,为跨模态协作提供底层能力。

该模型支持多样化的混合输入,用户可提交手绘草图、文字描述、图像素材、音频、视频等任意形式内容,系统将解析信息关系、模拟现实物理规律,最终实现高精度、符合现实逻辑的文本、图像、音频、视频等多模态输出的互理解与生成。

此次发布的亮点在于对话式实时编辑能力。与传统 AI 生成工具一次性输出、后续修改困难的痛点不同,Gemini Omni 支持在生成过程中的交互式迭代优化。用户在初始内容生成后,可以通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改不会破坏画面原有的整体逻辑与物理效果。

在发布会现场的演示中,工作人员仅凭手绘的简易图形与文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。