LLMs函数调用过程中的一个严重漏洞

揭示了 的LLMs函数调用过程中的一个严重漏洞,引入了一种新颖的“越狱函数”攻击方法,该方法利用对齐差异、用户胁迫和缺乏严格的安全过滤器。

越狱函数攻击利用函数调用中的LLM漏洞,在GPT-4、Claude-3.5-Sonnet和Gemini-1.5-pro等六种先进模型中实现了超过90%的成功率。

攻击方式涉及通过精心设计的模板、自定义参数、系统参数和触发提示来制作“越狱函数”,以诱导函数参数内产生有害内容。

主要漏洞: 1) 函数参数和聊天模式响应之间的对齐差异。 2) 用户强制执行可能有害的功能的能力。3)函数调用过程中缺乏严格的安全过滤器。

实证研究表明,在聊天模式下进行测试或允许模型选择函数执行时,攻击成功率显着下降,这证实了有关对齐问题和强制执行漏洞的假设。

提出了防御策略:1)限制用户对函数调用的权限。 2) 通过额外的安全培训来对齐函数调用。3) 为函数参数实现安全过滤器。4)在功能描述或用户提示中加入防御性提示。

在经过测试的模型中,在功能描述中插入防御性提示被证明最为有效,Claude-3.5-Sonnet 和 Gemini-1.5-pro 的攻击成功率降至 0%,GPT-4 的攻击成功率降至 10%。

研究结果强调,在函数调用能力方面LLM迫切需要加强安全措施,强调了在人工智能安全开发中考虑所有交互模式的重要性。

参考文献:[2407.17915] The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models (arxiv.org)

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部