在 ChatGPT 累积到约1亿用户后,正式开启商业化探索。昨日公布的 API 服务面向企业付费接入,75万单词仅需 2 美元,成本较此前显著下降约 90%。
与此同时,官方还开放了语音转文字的 API,基于 WhISPeR 大模型。WhISPeR LaRge-v1 于去年九月首次发布,升级版 WhISPeR LaRge-v2 于去年十二月开源。
商业化落地后,WhISPeR API 的定价同样具备竞争力:每分钟仅 0.006 美元,折合人民币约 4 分钱。这一定价对众多从事语音相关业务的企业将带来较大压力。
WhISPeR API 支持对语音文件进行转写与翻译,覆盖英语、中文、阿拉伯语、日语、德语、西班牙语等数十种语言。

不同语言的识别准确率存在明显差异。LaRge-v2 在西语、英语、意大利语、德语等语言的单词错误率通常控制在 5% 以内,转写后只需进行少量人工校对。
就中文而言,v1 的错误率为 19.6%,v2 仅略有提升至 14.7%,改进幅度有限,使用时仍需较多的校正工作。
产生这种差异的原因,除了中文固有的语言特性外,可能还与用于中文训练的语料相对不足有关,因为公开网络内容以外文为主。
