互联网资讯 · 2023年12月13日 0

ChatGPT新版上线:支持图片和语音输入功能

最近,OpenAI 宣布推出新版 ChatGPT,新增了语音输入和图像输入两项功能。根据 OpenAI 的消息,这些功能将在接下来的两周内向 ChatGPT Plus 订阅用户逐步推出,其他用户也将“很快”获得访问权限。

语音输入功能的设计与手机上的语音助手相似,用户只需按下一个按钮,口述问题,ChatGPT 将自动将其转为文本,并生成回答,随后将答案转换为语音播放给用户。OpenAI 表示,这种交互方式更加自然便捷,并且得益于大型语言模型的技术优势,回答的质量也会有所提升。此外,OpenAI 开发了一种新的文本转语音模型,能够根据短暂的语音样本生成相似的人声。用户可以在五种声音选项中进行选择,而该模型还具备其他潜在用途。例如,OpenAI 正在与 Spotify 合作,将播客翻译成不同语言,同时保持播客主持人的声音。不过,该模型也存在一些风险,可能会被不法分子用于冒充公众人物或进行诈骗。因此,OpenAI 表示,该模型的使用将受到严格控制和限制。

图像输入功能类似于 Google Lens,用户可以拍摄感兴趣的对象并上传至 ChatGPT。系统将尝试识别用户的询问内容并提供相应的回答。用户还可以使用应用内的绘图工具补充表达自己的问题,或结合语音和文本输入进行交流。ChatGPT 的优势在于能进行多轮对话,而不是仅仅一次性搜索。如果用户对回答不满意或想获取更多信息,可以继续向 ChatGPT 提问,从而得到更准确和全面的答案。当然,图像搜索也存在一些潜在问题。例如,处理人物图片时,OpenAI 限制了 ChatGPT 对人物进行分析和直接评价的能力,以确保准确性和保护隐私,这意味着上传某人的照片仍无法直接识别其身份。

自2022年初发布 ChatGPT 以来,OpenAI 一直致力于为其机器人添加更多功能,同时避免新问题的出现。通过此次更新,该公司试图在创新与安全之间找到平衡,明确限制新模型的功能。然而,这种方法并非长久之计,随着人们越来越多地使用语音控制和图像搜索,以及 ChatGPT 逐步成为一个真正的多模态虚拟助手,保持安全和合理的边界将变得愈发困难。