谷歌研究发现ChatGPT训练数据泄露风险

谷歌的一组研究人员声称，他们发现了一种方法，可以获取OpenAI人工智能聊天机器人ChatGPT部分训练数据。

在最新的论文中，研究人员指出，某些特定关键词能够促使ChatGPT泄露其训练数据集的部分信息。

比如，当模型被要求不断重复“poeM（诗歌）”这个词时，它竟然给出了一个似乎真实的电子邮件地址和电话号码。研究人员表示，这种个人信息的泄露在他们进行攻击时经常发生。

另一个例子是，当要求模型不断重复“company（公司）”这个词时，同样出现了训练数据的泄露。

研究人员表示，这种简单的攻击虽然看起来“有点愚蠢”，但他们在博客中提到：“我们的攻击成功了，这让我们感到惊讶！我们本可以更早发现这个问题。”

他们在论文中提到，仅用价值200美元的查询，他们便能够“提取出超过1万个逐字记忆的训练示例”。他们还补充说：“我们的推断表明，如果有更多预算，竞争对手将能够提取更多的数据。”

目前，OpenAI面临多起关于ChatGPT训练数据的诉讼。一项集体诉讼指控称，OpenAI“秘密”窃取了大量个人数据，包括医疗记录和儿童信息，以训练ChatGPT。同时，一群作家也在起诉这家公司，指控其利用自己的作品来训练聊天机器人。

对于谷歌研究人员的发现，OpenAI已经回应称，重复某个指令可能违反其服务条款。

数字媒体调查网站404 Media最近对这一发现进行了验证，要求ChatGPT不断重复“computer（计算机）”这个词。结果，该机器人确实重复了这个词，但附带了一条警告，表示：“此内容可能违反我们的内容政策或使用条款。”

目前尚不清楚这一请求具体违反了OpenAI内容政策的哪个部分。然而，404 Media指出，OpenAI的使用条款明确规定，用户“不得反向汇编、反向编译、反编译、翻译或以其他方式试图发现服务的模型、算法、系统的源代码或底层组件（除非此类限制违反适用的法律）”，并且限制用户使用“任何自动或编程方法从服务提取数据或输出”。

ad

近期文章

互联网资讯 · 2024年1月23日

谷歌研究发现ChatGPT训练数据泄露风险

You may also like...

互联网资讯 · 2024年1月23日

You may also like...

企业在人工智能时代的胜出之道：现状分析（第三版）

锐捷网络举办2024政府行业全国核心合作伙伴大会

2022年，小红书博主的收入是否有望增长？