研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容万宁市某某管道业务部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功万宁市某某管道业务部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:娱乐)
-
怼同行顺便怼老板?理想高管批理想ONE质保策略,一众车企躺枪
最近几年时间里,国内新能源汽车呈现了非常快速的发展节奏,新能源汽车市场已然成为了竞争异常激烈的红海市场,很多车企都相信自己能够在群狼环伺的大环境下胜出,让其他车企成为背景板。所以为了能够“出头”,为了
...[详细]
-
来源:互联网联合辟谣平台 2024年7月26日 谣 言福建福州世欧广场、仓山万达被淹? 真相:7月25日,网上一则“仓山万达王庄世欧广场)被淹”的视频,引发关注。经福建省福州市联排联调中心核
...[详细]
-
中国队夺得巴黎奥运会首金!运动员网名公开,网友:给世界一点00后震撼
原标题:中国队夺得巴黎奥运会首金!运动员网名公开,网友:给世界一点00后震撼) 来源 | 潇湘晨报记者 | 周盾7月27日,在巴黎奥运会射击混合团体10米气步枪金
...[详细]
-
巴黎当地时间26日晚7时30分,北京时间27日凌晨1时30分,2024年巴黎奥运会开幕式将在塞纳河上举行。巴黎奥运会打破常规,将开幕式搬到了体育场馆之外,无疑是一次极具想象力的创新。围绕开幕式的各
...[详细]
-
来源:长岭县公安局 2025年12月1日,我县长岭镇发生一起刑事案件,致1人死亡。接警后,公安机关立即组织开展侦查,确定犯罪嫌疑人为姚某(男,34岁)。经进一步工作,12月2日在通榆县发生的致1
...[详细]
-
26日上午,台湾已解除台风警报,但台风“格美”外围环流及西南风影响,仍为台湾南部地区造成严重灾情。截至26日8时,台湾累计死亡5人,另有688人受伤。 其中,伤亡人数最多的为高雄市,目前已有2人
...[详细]
-
台风“格美”的行踪受到广泛关注。据中央气象台介绍,今天台风“格美”仍在福建,预计将于傍晚至夜间由福建移入江西。据介绍,虽然“格美”登陆后强度有所减弱,但随着它不断深入内陆,并和副热带高压一起向北输
...[详细]
-
【#开幕式演了蒙娜丽莎被盗#】#巴黎奥运开幕式#,火炬手还在卢浮宫内,忽然之间,他发现《蒙娜丽莎》不见了。不过不用担心,这个细节还原了1911年《蒙娜丽莎》被盗事件,1913年《蒙娜丽莎》物归原主
...[详细]
-
2025.12.04 作者 |一财阿驴 11:31 A股午盘丨创业板指半日涨0.76% 截至午盘,上证指数涨0.04%,深证成指涨0.35%,创业板指涨0.76%。 盘面上,机器人产业链活
...[详细]
-
今年的高考提前批已经结束了,但同时也有不少学生因为各种原因被退档,这意味着他们错失了上大学的机会。退档听起来挺复杂的,但其实原因都差不多,最终结果就是让人遗憾地错过了一次上大学的好机会。对于那些提前批
...[详细]

席琳迪翁奥运开幕式献唱
大雾黄色预警:河北山西等7省市有大雾 局地能见度不足200米