GPT-4发布：准确度显著提升，SAT考试表现超过多数人类考生

3月15日，OpenAI正式发布新一代大型语言模型GPT-4。这是继GPT-3.5之后的重要升级版本，也为聊天机器人、搜索助手等应用带来了更强的能力。

据介绍，GPT-4已被用于支持多种AI产品，并被视为当前通用人工智能能力提升的代表性成果之一。官方称，它在多项专业和标准化测试中的表现已经接近甚至超过不少人类考生。

模型能力进一步增强

与上一代GPT-3.5相比，GPT-4在规模和训练强度上都有明显提升。通常来说，更大的模型意味着使用了更多训练数据，包含更多参数，因此也需要更高的计算资源和成本。

OpenAI表示，GPT-4在创造性、协作性和复杂问题处理方面都有改进，能够更准确地理解任务并给出答案。除了文本输入外，它还具备解析图像内容的能力，不过当前仍主要以文本形式输出结果。

近年来，人工智能领域的许多突破都与“规模化训练”密切相关。研究人员普遍认为，使用大量算力、在大规模数据上训练更复杂的模型，是推动能力提升的重要原因之一。GPT-4正是这一思路下的最新成果。

OpenAI确认，GPT-4的训练依赖微软云计算平台Azure。由于商业竞争等原因，官方没有公开模型参数规模、具体硬件配置等细节，以避免外界据此复现模型。

过去半年中，大语言模型已经成为科技行业最受关注的方向之一，多个热门AI应用都建立在这一技术基础之上。GPT系列模型此前已支撑多种演示和产品，而GPT-4则被视为这一能力的进一步升级。

微软也在同一天表示，其搜索产品中的AI聊天功能已经采用GPT-4模型。这意味着GPT-4不仅是技术展示，也正在快速进入实际消费级应用场景。

官方披露的信息显示，GPT-4在多个标准化考试中的表现明显提升，生成错误事实的情况更少，答非所问和触及限制性内容的概率也有所下降。

在具体测试中，GPT-4的模拟律师考试成绩进入考生前10%；在SAT阅读测试中进入前7%；在SAT数学测试中进入前11%。这一成绩说明，它在某些标准化任务中的表现已经超过了大多数人类考生。

尽管性能提升显著，OpenAI也明确表示，GPT-4并不完美。它依然会出现“幻觉”问题，也就是生成看似合理但并不真实的内容；在事实准确性上，仍不能完全替代人工判断。

此外，当模型给出错误答案时，仍可能表现出较强的“自信”，坚持错误结论。OpenAI管理层也承认，GPT-4依旧存在明显缺陷和边界，只是在首次体验时更容易给人留下深刻印象。

官方还提到，GPT-4目前仍面临一些已知问题，包括社交偏见、内容幻觉以及潜在的攻击性回复等。相比GPT-3.5，这种差距在简单对话中未必特别明显，但在任务更复杂、指令更细致时，GPT-4的优势会更加突出，表现出更高的稳定性、创造力和对细微要求的理解能力。

OpenAI表示，已有多家公司开始将GPT-4整合进自己的产品中，包括语言学习、在线教育和支付服务等领域的企业。

目前，GPT-4已经向订阅用户开放，也可通过API提供给开发者，将其接入各类应用和服务中。随着更多企业接入，这一模型的能力预计会在未来进一步渗透到教育、办公、搜索、客服等更多实际场景中。