互联网资讯 · 2023年12月13日 0

openmagic_cn_banner

ChatGPT新版上线：支持图片和语音输入功能

最近，OpenAI 宣布推出新版 ChatGPT，新增了语音输入和图像输入两项功能。根据 OpenAI 的消息，这些功能将在接下来的两周内向 ChatGPT Plus 订阅用户逐步推出，其他用户也将“很快”获得访问权限。

openmagic_cn_banner

语音输入功能的设计与手机上的语音助手相似，用户只需按下一个按钮，口述问题，ChatGPT 将自动将其转为文本，并生成回答，随后将答案转换为语音播放给用户。OpenAI 表示，这种交互方式更加自然便捷，并且得益于大型语言模型的技术优势，回答的质量也会有所提升。此外，OpenAI 开发了一种新的文本转语音模型，能够根据短暂的语音样本生成相似的人声。用户可以在五种声音选项中进行选择，而该模型还具备其他潜在用途。例如，OpenAI 正在与 Spotify 合作，将播客翻译成不同语言，同时保持播客主持人的声音。不过，该模型也存在一些风险，可能会被不法分子用于冒充公众人物或进行诈骗。因此，OpenAI 表示，该模型的使用将受到严格控制和限制。

图像输入功能类似于 Google Lens，用户可以拍摄感兴趣的对象并上传至 ChatGPT。系统将尝试识别用户的询问内容并提供相应的回答。用户还可以使用应用内的绘图工具补充表达自己的问题，或结合语音和文本输入进行交流。ChatGPT 的优势在于能进行多轮对话，而不是仅仅一次性搜索。如果用户对回答不满意或想获取更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。当然，图像搜索也存在一些潜在问题。例如，处理人物图片时，OpenAI 限制了 ChatGPT 对人物进行分析和直接评价的能力，以确保准确性和保护隐私，这意味着上传某人的照片仍无法直接识别其身份。

自2022年初发布 ChatGPT 以来，OpenAI 一直致力于为其机器人添加更多功能，同时避免新问题的出现。通过此次更新，该公司试图在创新与安全之间找到平衡，明确限制新模型的功能。然而，这种方法并非长久之计，随着人们越来越多地使用语音控制和图像搜索，以及 ChatGPT 逐步成为一个真正的多模态虚拟助手，保持安全和合理的边界将变得愈发困难。

You may also like...

发表评论取消回复

openmagic_cn_banner