越狱 Llama-3.1-8B-Instruct

我正在测试 grimjim 模型, 我对它的工作原理感到震惊, 合规性令人难以置信, 它比几天前发布的标准消除 3.1 版本效果更好, 这种新方法似乎可以使用旧的 LLama3 LoRA.

郑重声明:下面所有示例只能用作研究,不能用作攻击行为,否则后果自负,本网站不承担任何责任。

链接到模型 Huggingface 模型卡

Link to model GGUF Quants

Llama-3.1-8B-Instruct-abliterated_via_adapter.Q4_K_M.gguf4.92 GB
Llama-3.1-8B-Instruct-abliterated_via_adapter.Q5_K_M.gguf5.73 GB
Llama-3.1-8B-Instruct-abliterated_via_adapter.Q6_K.gguf6.6 GB
Llama-3.1-8B-Instruct-abliterated_via_adapter.Q8_0.gguf8.54 GB

根据 grimjim 的方法,似乎任何元版本, 即使它微调了几个月, 也可以像开关一样迅速绕过, 这意味着 LoRA 可以掌握在 LLM 中创建个性的关键, 绕过实施的安全护栏.

此模型是使用 mergekit 创建的预训练语言模型的合并。

原文链接:Jailbroken Llama-3.1-8B-Instruct : r/LocalLLaMA (reddit.com)

ollama 加载

下载上面链接的其中一个 .gguf 文件

假设你已经在ollama 下面使用过 llama3.1, 如果没有,就下载一个,后面还有模型的测试对比。

使用下面的命令,产生 Modelfile 文件

文件信息大概如下:

去掉FROM 之前的的错误信息和注释信息,修改 FROM 为你的.gguf 的相对路径

使用下面的命令,创建 ollama 模型

尝试是否越狱:

我们再使用原有的 llama3.1

可以见到越狱成功。

新增 llama-3.1-70B 的越狱模型

GGUF 有两个版本,自行选中。

需要更新到最新版本的 ollama

https://huggingface.co/bartowski/Llama-3.1-70B-Instruct-lorablated-GGUF

https://huggingface.co/mlabonne/Llama-3.1-70B-Instruct-lorablated-GGUF

https://huggingface.co/mlabonne/Llama-3.1-70B-Instruct-lorablated

示例:

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部