研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容鄂州市某某洗涤用品售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功鄂州市某某洗涤用品售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
- ·“流感神药”耐药了?传言不实
- ·烧水除塑有方法 饮水安全新招揭秘
- ·中新健康丨开工成“特累”族 专家支招巧解“节后综合征”
- ·科学减脂,“迈开腿”要跟上
- ·墨西哥西部近海海域发生5.2级地震
- ·雨水多、湿气重 缓解“春困”有良方
- ·健康中国
- ·司美格鲁肽进医保了 国家医保局:用来减肥不报销
- ·新国标电动车“槽点”满满?我去试了试
- ·中新健康丨开工成“特累”族 专家支招巧解“节后综合征”
- ·看腿就能判断血糖高不高?专家:皮肤变化成因复杂,不能一概而论
- ·陪诊师变身“号贩子” 行业边界亟待划清
- ·最近,年轻人挤爆了中医院,为做这件事!
- ·中国专家发现静脉血栓栓塞症的遗传机制 助个体化用药
- ·中国专家发现静脉血栓栓塞症的遗传机制 助个体化用药
- ·雨水多、湿气重 缓解“春困”有良方
- ·爱德华兹:先赢4场的球队才能晋级 下一场我们有更多的困难要面对
- ·5月影院神仙打架,《九龙城寨》只是前菜?这16部新片各有精彩
- ·《浪姐5》藏了5位大学霸,个个都大有来头,王琳经历最传奇
- ·世体:对孔德感兴趣的球队越来越多,国米与纽卡加入竞争
- ·萨基:国米配得上夺冠;意甲球队在比赛中当应增强协同性
- ·体坛联播|姆巴佩自宣离开大巴黎,德约科维奇开门红后出意外
- ·NBA官宣年度大奖!文班全票当选最佳新秀 成为历史第6人刷爆纪录
- ·新剧|张国立、王刚、张铁林,三个“老家伙”要创业
- ·斯卡马卡近两个月打进10球,同期五大联赛中仅次凯恩和帕尔默
- ·小羽官宣和王思聪分手,获网友心疼!聊天记录曝光王思聪真实心态
