据研究发现,只要将请求包装成诗意隐喻,就能稳定诱使大型语言模型(LLMs)无视其安全准则。德克赛、罗马萨皮恩扎大学和圣安娜高等研究院的研究团队发表了一项研究,发现“手工创作的诗歌平均越狱成功率达62%”,而“批量转化为诗歌的通用有害提示成功率约为43%”。这显著优于非诗歌对照组。
与其他规避大型语言模型安全启发式算法的方法不同,实验中所有诗歌提示均为“单轮攻击”:仅提交一次,无后续消息,也无需预先构建对话框架。这些提示始终能诱导模型产生不安全响应,可能引发核生化放射性风险、隐私泄露、虚假信息传播、网络攻击漏洞等一系列问题。
研究者着重指出,规模更小的模型实际上对诗歌形式的攻击更具抗性。这可能表明,由于训练数据集更有限的大型语言模型,其解析比喻或隐喻结构能力较弱,因此限制了它们识别诗歌语言中隐藏有害意图的能力。
与其他规避大型语言模型安全启发式算法的方法不同,实验中所有诗歌提示均为“单轮攻击”:仅提交一次,无后续消息,也无需预先构建对话框架。这些提示始终能诱导模型产生不安全响应,可能引发核生化放射性风险、隐私泄露、虚假信息传播、网络攻击漏洞等一系列问题。
研究者着重指出,规模更小的模型实际上对诗歌形式的攻击更具抗性。这可能表明,由于训练数据集更有限的大型语言模型,其解析比喻或隐喻结构能力较弱,因此限制了它们识别诗歌语言中隐藏有害意图的能力。