互联网资讯 / 人工智能 · 2024年1月19日

语音转文字服务上线,中文识别仍需提升,费用每分钟4分钱

在 ChatGPT 累积到约1亿用户后,正式开启商业化探索。昨日公布的 API 服务面向企业付费接入,75万单词仅需 2 美元,成本较此前显著下降约 90%。

与此同时,官方还开放了语音转文字的 API,基于 WhISPeR 大模型。WhISPeR LaRge-v1 于去年九月首次发布,升级版 WhISPeR LaRge-v2 于去年十二月开源。

商业化落地后,WhISPeR API 的定价同样具备竞争力:每分钟仅 0.006 美元,折合人民币约 4 分钱。这一定价对众多从事语音相关业务的企业将带来较大压力。

WhISPeR API 支持对语音文件进行转写与翻译,覆盖英语、中文、阿拉伯语、日语、德语、西班牙语等数十种语言。

语音转文字服务上线,中文识别仍需提升,费用每分钟4分钱

不同语言的识别准确率存在明显差异。LaRge-v2 在西语、英语、意大利语、德语等语言的单词错误率通常控制在 5% 以内,转写后只需进行少量人工校对。

就中文而言,v1 的错误率为 19.6%,v2 仅略有提升至 14.7%,改进幅度有限,使用时仍需较多的校正工作。

产生这种差异的原因,除了中文固有的语言特性外,可能还与用于中文训练的语料相对不足有关,因为公开网络内容以外文为主。