研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容柳州市某某教育科技厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功柳州市某某教育科技厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:休闲)
-
42.195公里,完成“全马”的颜如晶。还有什么事能比看颜如晶的减肥日记更爽?她用不到两年的时间,瘦掉了几乎“大半个自己”。如今,她又完成了一项令人热血沸腾的壮举——在2025上海马拉松跑完全马42.
...[详细]
-
当地时间12月11日,欧盟理事会通过了关于向乌克兰提供欧盟“乌克兰援助机制”第六笔定期援助款项的决定,乌克兰将很快收到约23亿欧元的资金。这笔资金的主要目的是增强乌克兰的宏观金融稳定性,并支持其公
...[详细]
-
艾滋病,这个曾被称为“世纪瘟疫”的疾病,自1985年首次现身中国以来,已经在这片土地上存在了近四十年。艾滋病,全称是“获得性免疫缺陷综合征”AIDS),它是由艾滋病病毒HIV)引起的一种病死率极高的恶
...[详细]
-
一氧化碳中毒近期高发,三种场景最易中招2025-12-12 15:11:43 来源:“国家应急广播”微信公众号
...[详细]
-
冬天是一个比较注重保暖效果的季节,但是,大家也千万别为了图方便,每次都穿羽绒服,还可以试一试其他的穿搭,追求更多的可能性。下面这些日常穿搭,就可以给很多女性带来明确的灵感和方向,选用的服饰有一些不同,
...[详细]
-
医学科普如何“说人话”?四位医生大V分享破圈之道2025-12-12 10:38:05 来源:中国新闻网 作
...[详细]
-
国庆佳节将至,许多人已迫不及待踏上出游的旅程。出行在外,健康可不容忽视。无论是旅途中的衣食住行,还是返程时的诸多细节,都与我们的健康息息相关。在此,人民网准备了国庆出行健康提示,伴您度过一个欢乐、健康
...[详细]
-
据河南市场监管微信公众号消息,中秋将至,为帮助消费者选购到安全、放心、满意的月饼,欢度佳节,河南省市场监管局特发布消费提示。选择正规渠道,核查经营资质应选择证照齐全的商场、超市、专卖店等正规销售场所或
...[详细]
-
“以前一到冬天,阳台玻璃上全是哈气,墙角还返潮;现在外墙做了保温,暖气也热乎了,这个冬天心里真踏实!”近日,家住北京京铁昌平小区的孟大爷抚摸着崭新的外墙,难掩心中的喜悦。当日,由中铁六局建安公司承建的
...[详细]
-
哪种沟通方式更适合与孤独症患者交流?专业人士解答2025-12-12 12:25:44 来源:央视新闻客户端
...[详细]

Krystal,终于等到你!
甲骨文美股盘前跌超12%