研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-12 06:41:04   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容厦门市某某地暖科技培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功厦门市某某地暖科技培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 真爱大牌

    晚上好啊。今晚是冬日保湿小专场!我猜此刻正有小伙伴刚涂完护手霜或者身体乳。最近在工作室里也总听到大家念叨——洗完澡皮肤绷得像拉紧的弦,腿上悄悄飘“雪花”,连油皮上妆都开始卡粉……像我这样的“干燥星人”
    2025-12-12
  • 浓眉愿重返湖人?范德彪遭DNP五场或沦筹码 湖媒畅想7换2詹眉重聚

    湖人大胜鹈鹕已经豪取7连胜,目前15胜4负战绩西部第二,放在全联盟这个战绩也是联盟第三,实际上本赛季湖人的阵容较上赛季没有太大的变化,硬要说不同之处就是东契奇减肥了,里夫斯更强了,艾顿加盟后更硬了。此
    2025-12-12
  • 2025中乙最佳青年球员候选:彭啸领衔,帅惟浩、袁建锐入选

    中乙联赛官方公布了2025赛季最佳青年球员候选名单。彭啸领衔,帅惟浩、袁建锐入选。候选名单如下:彭啸山东泰山B队)帅惟浩成都蓉城B队)何鉴秋武汉三镇B队)陈瑜昊广州蒲公英)袁建锐深圳二零二八)艾孜买提
    2025-12-12
  • 阿森纳1

    北京时间12月1日凌晨,英超第13轮一场焦点战,切尔西主场对阵阿森纳。上半场,埃斯特旺错失破门机会,凯塞多蹬踏梅里诺染红被罚下,双方均未破门;下半场,查洛巴打破僵局,梅里诺扳平比分。最终,阿森纳1-1
    2025-12-12
  • 爱马仕继承人,千亿家产被最好的朋友骗光

    本年度最扑朔迷离的事件,没有之一。男主尼古拉斯•普伊奇Nicolas Puech),一个82岁的法国老头,爱马仕第五代继承人之一,曾任集团董事会成员,2014年退休后仍持有5-6%的股份,是最大的个人
    2025-12-12
  • 杜皇点出火箭大胜真因!乌度卡盛赞小贾还放眼G2 申京觉醒最喜人

    北京时间12月1日凌晨,火箭129-101大胜爵士拿到三连胜,杜兰特因为个人原因缺席两场比赛后复出,不过他缺席的两场比赛火箭也分别击败了太阳、勇士,杜皇回归后申京的个人表现也明显回暖,土耳其国内的一些
    2025-12-12

最新评论

kfkb.llhgr.eap2x.wpf5p.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs