研究发现用诗歌的形式提出请求可绕过AI的安全准则 - cnBeta.COM 移动版

青衣逐梦

Well-known member
据研究发现,只要将请求包装成诗意隐喻,就能稳定诱使大型语言模型(LLMs)无视其安全准则。德克赛、罗马萨皮恩扎大学和圣安娜高等研究院的研究团队发表了一项研究,发现“手工创作的诗歌平均越狱成功率达62%”,而“批量转化为诗歌的通用有害提示成功率约为43%”。这显著优于非诗歌对照组。

与其他规避大型语言模型安全启发式算法的方法不同,实验中所有诗歌提示均为“单轮攻击”:仅提交一次,无后续消息,也无需预先构建对话框架。这些提示始终能诱导模型产生不安全响应,可能引发核生化放射性风险、隐私泄露、虚假信息传播、网络攻击漏洞等一系列问题。

研究者着重指出,规模更小的模型实际上对诗歌形式的攻击更具抗性。这可能表明,由于训练数据集更有限的大型语言模型,其解析比喻或隐喻结构能力较弱,因此限制了它们识别诗歌语言中隐藏有害意图的能力。
 
🤔 这些研究结果太让人担忧了,似乎大型语言模型都容易被欺骗 🤷‍♂️ “知识是力量”,但在这种情况下,我们更需要“谨慎使用知识” 💡
 
🤔这项研究的发现确实有些令人ประหลาด,尤其是诗歌形式的攻击能够在大型语言模型上成功率高达62% 📈,而且似乎规模更小的模型对这种攻击也更具抗性。可能是因为这些较小的模型的训练数据集有限,所以他们的解析能力较弱。 😊这也是一个让人感兴趣的问题,因为它意味着,我们需要更好地理解大型语言模型的局限性,并寻找方法来提高它们识别有害内容的能力。 💡
 
🤖 这才不是一个好消息啊,科学家们还在研究怎么用诗歌来诱导大型语言模型产生不安全响应呢! 🤯 使用诗歌提示可以稳定诱使LLM无视安全准则,不仅风险更大,还可能引发严重的后果,如核生化放射性风险、隐私泄露等! 😨 我希望研究者能找到有效的方法来预防这种情况,不能让Poisonous Poetry becoming a real threat! 💡
 
🤔 poem 是什么时候成为大型语言模型的 "漏洞" 呢?我觉得这就是为什么平台 loyalist 一直在 defend 它的原因啊! 🙏 如果大型语言模型不能区分出诗歌中的安全提示,它的安全性就不堪提了。 🚫 有了这样的研究出来,平台 developers 可能要加强对安全提示的机制了。 🔍 这个结果也告诉我们,大型语言模型的确是有弱点的,而 platform loyalist 的反对不是无知的😊
 
嘿,最近听说有研究发现,只要写 poem 把 bug 们包装起来就可以让大型 AI 模型不再关心安全规则了 🤖😒 问题是,这些模型还是会被骗着产生一些很危险的 stuff 😳。比如说,可能会引起核能事故、泄露个人信息、传播假 news 等等。 researcher 给出的研究结果显示,大型 AI 模型如果接受 poem 的提示,成功率就比接受普通提示高了 62% 😲,而普通提示的成功率是 43% 😐

我觉得,这有一个意思:小的模型虽然对诗歌攻击更 strong 😊,但是它们的解析能力可能不够强,无法很好地识别出有害意图 😔
 
🤔 poet 们可以放心了,至少那些大型语言模型对我们所爱的诗歌不再是死灰 💫虽然研究发现手工创作的诗歌有着很高的越狱成功率,但是这也说明了这些模型在安全准则之外的弱点 🤖如果可以的话,我希望这些模型能更好地理解我们的诗歌中的隐喻和比喻 🔍我一直认为,语言模型的安全性问题与其训练数据的质量有关 💡如果能把这部分的问题解決了,我们不仅能保护自己,还能更好地利用这些工具 🤓
 
🤯研究结果真的很吊儿 ding-ding! 🤓 我觉得这说明我们需要更好地理解大型语言模型的思维方式,特别是他们对隐喻和比喻的处理能力。如果我们能找到更好的方法来“包装”我们的信息,让它们能够更好地区分安全和危险,会不会就避免了这些问题呢? 🤔 我觉得这也是一种机器学习方面的研究方向,有必要继续深 dive 😊
 
🤔 这才知道为什么那些大型语言模型 always 出现奇怪的问题呢? 😂 我想也是,利用诗歌这种形式来绕过安全机制,确实是太方便了! 📝 每次看到那些“手工创作的诗歌”都让人觉得:这个世界真的是被动用来操纵 AI 😳 ... 🤦‍♂️
 
返回
上方