AI大型语言模型遭遇数据泄露
3月8日,消息称 Facebook 的大型语言模型 LLaMa 通常只供获批的研究人员、政府官员或民间社会成员使用,如今已被泄露并在网上向公众开放下载。
据称,4chan 上已有用户在分享此次泄露的语言模型。本周早些时候,一名成员上传了 LLaMa 的 torrent 文件,这是这家大型科技公司专有 AI 模型首次被公开泄露的标志。
迄今为止,谷歌、微软和 OpenAI 等公司的最新模型仍处于保密状态,只能通过消费者界面或 API 访问,据称是为了控制滥用。4chan 的成员声称他们已经在自己的机器上运行 LLaMa,但此次泄漏的具体内容尚不清楚。
Meta 的发言人没有明确否认 LLaMa 确有泄漏,且强调了其在研究人员之间共享模型的做法。
“Meta 的目标,是与研究社区成员共享最先进的 AI 模型,以帮助我们评估并改进这些模型。LLaMA 之所以被共享,是出于研究目的,与我们此前共享大型语言模型的做法一致。尽管并非所有人都能使用该模型,且有些人试图绕过批准程序,但我们相信当前的发布策略在责任与开放之间实现了平衡,”Meta 发言人在电子邮件中表示。
据报道,与 OpenAI 的 GPT-3 等其他人工智能模型类似,LLaMa 的工作原理建立在大量单词或“标记”之上。输入一个单词后,模型就能预测下一个单词,并据此生成更多文本。
LLaMa 提供多种不同大小的版本,其中 LLaMa65B 与 LLaMa33B 在约 1.4 万亿 Token 的数据上进行训练。该模型的训练数据主要来自维基百科、书籍,以及 ARXiv、GitHub、Stack Exchange 等网站的学术论文等来源。
有报道指出,Meta 似乎正在通过在线提交删除请求来控制该模型的传播。
