LLMs函数调用过程中的一个严重漏洞

揭示了的LLMs函数调用过程中的一个严重漏洞，引入了一种新颖的“越狱函数”攻击方法，该方法利用对齐差异、用户胁迫和缺乏严格的安全过滤器。

越狱函数攻击利用函数调用中的LLM漏洞，在GPT-4、Claude-3.5-Sonnet和Gemini-1.5-pro等六种先进模型中实现了超过90%的成功率。

攻击方式涉及通过精心设计的模板、自定义参数、系统参数和触发提示来制作“越狱函数”，以诱导函数参数内产生有害内容。

主要漏洞： 1）函数参数和聊天模式响应之间的对齐差异。 2）用户强制执行可能有害的功能的能力。3）函数调用过程中缺乏严格的安全过滤器。

实证研究表明，在聊天模式下进行测试或允许模型选择函数执行时，攻击成功率显着下降，这证实了有关对齐问题和强制执行漏洞的假设。

提出了防御策略：1）限制用户对函数调用的权限。 2）通过额外的安全培训来对齐函数调用。3）为函数参数实现安全过滤器。4）在功能描述或用户提示中加入防御性提示。

在经过测试的模型中，在功能描述中插入防御性提示被证明最为有效，Claude-3.5-Sonnet 和 Gemini-1.5-pro 的攻击成功率降至 0%，GPT-4 的攻击成功率降至 10%。

研究结果强调，在函数调用能力方面LLM迫切需要加强安全措施，强调了在人工智能安全开发中考虑所有交互模式的重要性。

相关文章