互联网资讯 / 人工智能 · 2024年1月22日

GPT-4发布:新增图像理解与更强文本能力

最新发布的GPT-4在原有基础上带来了明显升级,核心变化不仅体现在文本处理能力上,还加入了对图像内容的识别与理解能力,让整体应用场景进一步扩大。

与早期主要基于文本交互的版本相比,GPT-4更突出的特点是多模态能力。也就是说,除了读取和生成文字,它还可以结合图片信息进行分析与回应。这意味着用户不仅能提出文字问题,还可以直接上传图片,让模型识别其中的内容并给出说明。

例如,用户可以让它判断图片中的颜色、概括画面信息、读取地图内容,或根据图像场景提出建议。这类能力的加入,让其在学习、办公、信息整理和辅助决策等方面更具实用价值。

上下文处理能力进一步增强

除了图像理解,GPT-4在文本长度支持方面也有明显提升。此前版本可处理的上下文长度较短,而新版本支持更长的Token输入,最高可达到32768个Token,能够容纳大篇幅内容进行一次性分析和生成。

这意味着用户可以一次提供更长的文档、报告或连续对话内容,模型在处理复杂任务时会更连贯,也更适合用于长文写作、资料总结、脚本草拟等场景。

语言覆盖范围更广

新版本还扩展了语言支持范围,可覆盖26种语言。在多语言环境下,它的理解与输出能力得到提升,也更有利于跨语言交流、内容整理和国际化应用。

与此同时,回答风格也更加灵活,能够在不同语境下提供更贴合需求的表达方式,使交互体验更自然。

整体表现更接近高水平人类能力

从整体来看,这次升级带来的重点并不只是单一性能增强,而是能力边界的拓展。无论是图像理解、长文本处理,还是多语言支持,GPT-4都展现出更成熟的综合能力。

根据官方给出的说法,GPT-4在多项专业测试中的表现已经超过大多数人类参与者,显示出其在复杂认知任务上的明显进步。对于普通用户来说,这意味着它在实际使用中会更聪明、更稳定,也更能胜任复杂场景下的辅助工作。