ChatGPT新增语音与图像功能

9月26日消息，OpenAI宣布其AI聊天工具ChatGPT现已具备“看、听、说”的能力。这意味着该聊天机器人能够接收图像和语音输入，并通过语音进行回复。

ChatGPT于2022年11月30日正式推出，能够根据用户的要求快速生成文章、故事、歌词、散文、笑话，甚至代码，并回答各种问题。

OpenAI表示，新的语音和图像功能将在未来两周内逐步向Plus和企业用户推出。

新功能允许用户通过语音与ChatGPT对话，或展示正在讨论的内容。其中，语音功能将在iOS和Android平台上线，而图像功能将支持所有平台。该公司计划分阶段推出这些功能。

在语音方面，用户可以进行语音对话，从而实现更直观的交互。这项功能由新的文本转语音模型支持，能够生成类似人类的音频，用户可从5种不同的声音中选择。此外，该功能还结合了开源语音识别系统Whisper，将用户的语音转录为文本。

有报道指出，语音输入和输出功能使ChatGPT具备了与亚马逊Alexa等语音助手相似的能力。

在图像方面，用户可以与ChatGPT互动，上传多张图像。如果需要专注于图像的某个部分，移动应用中的绘图工具可以提供帮助。

OpenAI表示，图像理解功能由多模态GPT-3.5和GPT-4支持，这些模型将语言推理能力应用于照片、屏幕截图以及含有文字和图像的文档等多种图像类型。

GPT-4是OpenAI在今年3月14日发布的最新一代大型语言模型，它支持图像和文本输入，输出为文本；扩展能力增强，能够处理超过25000个单词的文本；具备更强的创造力，并能应对更细微的指令。

互联网资讯 / 人工智能 · 2024年3月3日