互联网资讯 / 人工智能 · 2023年10月30日 0

AI能根据声音描绘外貌,仅需6秒

人工智能的进步使得AI能够在短短6秒内,依据声音识别出用户的性别、年龄和种族,甚至描绘出其外貌。

这项技术由麻省理工学院(MIT)研发,研究团队利用一个由数百万个视频片段构成的数据集,训练出名为Speech2FACE的神经网络模型。该模型主要分为两个部分:语音编码器负责分析输入的语音并预测相关的面部特征,而脸部解码器则将这些特征整合并生成图像。最终结果显示,仅凭声音即可在6秒内重现人脸,效果令人满意。

研究团队指出,Speech2FACE模型的主要目的并非精准还原说话者的外貌,而是探索语音与外貌之间的关系。目前,该模型已能够识别性别,并轻松区分白人和亚洲人。在年龄方面,对于30、40及70岁的人群,其准确率较高。

除了基本的性别、年龄与种族识别外,Speech2FACE还能够猜测一些面部特征,如鼻子结构、嘴唇的厚度与形状,以及咬合情况等,并能大致推测脸部骨架。一般来说,输入的声音时间越长,AI的准确度也会提高。然而,研究人员也承认,AI的判断有时会出现错误,例如将尚未经历变声期的小男孩识别为女性,或者在口音和年龄的判断上出现失误。导致这些局限性的部分原因,归结于数据集中说话者的种族多样性不足,使得AI在识别不同种族声音方面的能力较弱。

尽管如此,这项技术背后潜藏的隐私和歧视问题引发了一些担忧。有人认为,尽管这是一项学术研究,但面部信息的敏感性需要进一步讨论道德因素,必须进行严格的技术测试,并确保实际数据能够代表预期的用户群体。

[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]