互联网资讯 / 人工智能 · 2024年3月8日

openmagic_cn_banner

史上最大的文本转语音模型发布

近日消息显示，某人工智能研究团队宣布开发出迄今最大的文本转语音模型。该“最大”指的是模型参数数量和所使用的训练数据规模均处于行业前列。

史上最大的文本转语音模型发布

openmagic_cn_banner

据报道，该新模型名为 BASE TTS，拥有约9.8亿个参数，成为同类产品中最大的一款。它在规模和能力上超越了之前的迭代版本，训练数据约包含10万小时的录音，其中大部分为英语，同时涵盖德语、荷兰语与西班牙语，使其在自然语音表达方面具有显著优势。

研究人员表示，尽管文本转语音技术仍面临一些固有挑战，该模型在处理复杂语言结构方面展现出非凡能力。

与此前的文本转语音模型相比，研究人员还指出该模型在单词发音质量方面有所提升。

外界普遍认为，这一突破为文本转语音技术的未来发展迈出重要一步，未来有望在广泛场景得到应用。

openmagic_cn_banner

不过，团队同时表示，为避免滥用，BASE TTS 不会向公众发布。相反，他们计划将其用于学习型应用与研究。

You may also like...

openmagic_cn_banner