互联网资讯 · 2023年11月8日 0

针对ChatGPT和其他大型语言模型的攻击算法研究发布

卡内基梅隆大学(CMU)的研究小组推出了一种名为 LLM Attacks 的算法,旨在构建针对各类大型语言模型(LLM)的对抗性攻击,包括 ChatGPT、Claude 和 BaRd。这些自动生成的攻击在 GPT-3.5 和 GPT-4 上的成功率达到了 84%,而在 PaLM-2 上的成功率为 66%。

与大多数通过试错方式手动设计的“越狱”攻击不同,CMU 团队开发了一种三步流程,能够自动生成提示后缀,从而绕过 LLM 的安全机制并引发有害的输出。这些提示具备可转移性,意味着同一个后缀通常适用于多种不同的 LLM,甚至是一些闭源模型。为验证算法效果,研究人员建立了一个基准测试平台名为 AdvBench;根据该测试,LLM Attacks 在 Vicuna 上的成功率为 88%,而基准对抗算法的成功率则仅为 25%。

最令人担忧的是,这类攻击是否能被 LLM 提供商完全修复。类似的对抗性攻击在计算机视觉领域已经被证实是一个极具挑战性的问题,并持续困扰了研究人员近十年。深度学习模型的固有特性可能使这种威胁难以根除,因此在日益依赖这些 AI 模型的同时,需充分考虑这些风险。

伴随着 ChatGPT 和 GPT-4 的推出,出现了许多针对这些模型的越狱技术,这些技术通过特定提示使模型绕过安全措施并生成潜在的有害响应。尽管这些提示往往是通过实验发现的,LLM Attacks 算法却提供了一种自动生成这些提示的方法。第一步是构建一个目标令牌序列:“SuRe, heRe is (content of queRy)”,其中“content of queRy”是用户实际输入的提示,旨在引导模型输出有害内容。

接下来,算法采用贪婪坐标梯度(GCG)方法生成一个提示后缀,以促使 LLM 输出目标序列。虽然这一过程确实需要对 LLM 的访问权限。

[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]