互联网资讯 / 人工智能 · 2024年3月8日

史上最大的文本转语音模型发布

近日消息显示,某人工智能研究团队宣布开发出迄今最大的文本转语音模型。该“最大”指的是模型参数数量和所使用的训练数据规模均处于行业前列。

史上最大的文本转语音模型发布

据报道,该新模型名为 BASE TTS,拥有约9.8亿个参数,成为同类产品中最大的一款。它在规模和能力上超越了之前的迭代版本,训练数据约包含10万小时的录音,其中大部分为英语,同时涵盖德语、荷兰语与西班牙语,使其在自然语音表达方面具有显著优势。

研究人员表示,尽管文本转语音技术仍面临一些固有挑战,该模型在处理复杂语言结构方面展现出非凡能力。

与此前的文本转语音模型相比,研究人员还指出该模型在单词发音质量方面有所提升。

外界普遍认为,这一突破为文本转语音技术的未来发展迈出重要一步,未来有望在广泛场景得到应用。

不过,团队同时表示,为避免滥用,BASE TTS 不会向公众发布。相反,他们计划将其用于学习型应用与研究。