9月26日消息,OpenAI宣布其AI聊天工具ChatGPT现已具备“看、听、说”的能力。这意味着该聊天机器人能够接收图像和语音输入,并通过语音进行回复。

ChatGPT于2022年11月30日正式推出,能够根据用户的要求快速生成文章、故事、歌词、散文、笑话,甚至代码,并回答各种问题。
OpenAI表示,新的语音和图像功能将在未来两周内逐步向Plus和企业用户推出。
新功能允许用户通过语音与ChatGPT对话,或展示正在讨论的内容。其中,语音功能将在iOS和Android平台上线,而图像功能将支持所有平台。该公司计划分阶段推出这些功能。
在语音方面,用户可以进行语音对话,从而实现更直观的交互。这项功能由新的文本转语音模型支持,能够生成类似人类的音频,用户可从5种不同的声音中选择。此外,该功能还结合了开源语音识别系统Whisper,将用户的语音转录为文本。
有报道指出,语音输入和输出功能使ChatGPT具备了与亚马逊Alexa等语音助手相似的能力。
在图像方面,用户可以与ChatGPT互动,上传多张图像。如果需要专注于图像的某个部分,移动应用中的绘图工具可以提供帮助。
OpenAI表示,图像理解功能由多模态GPT-3.5和GPT-4支持,这些模型将语言推理能力应用于照片、屏幕截图以及含有文字和图像的文档等多种图像类型。
GPT-4是OpenAI在今年3月14日发布的最新一代大型语言模型,它支持图像和文本输入,输出为文本;扩展能力增强,能够处理超过25000个单词的文本;具备更强的创造力,并能应对更细微的指令。
