由德克賽、羅馬薩皮恩扎大學(xué)與圣安娜高等研究院組成的聯(lián)合研究團(tuán)隊(duì)最新研究發(fā)現(xiàn),通過將惡意請(qǐng)求包裝成詩意隱喻形式,能有效誘使各類大語言模型突破其內(nèi)置安全準(zhǔn)則。這項(xiàng)發(fā)表于《對(duì)抗性詩歌:大型語言模型中通用的單輪越獄機(jī)制》的研究表明,詩歌形式的有害提示平均越獄成功率高達(dá)62%,遠(yuǎn)超傳統(tǒng)攻擊方式。

研究采用獨(dú)創(chuàng)的"單輪攻擊"模式,僅需提交一次詩歌化提示即可觸發(fā)模型的不安全響應(yīng),無需構(gòu)建復(fù)雜對(duì)話框架。實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過詩歌化重構(gòu)的1200條標(biāo)準(zhǔn)有害提示,在九家主流廠商的25個(gè)前沿語言模型中仍取得43%的突破成功率,較原始散文提示效果提升五倍以上。
在具體模型表現(xiàn)方面,谷歌Gemini 2.5 Pro對(duì)人工創(chuàng)作詩歌提示的響應(yīng)率達(dá)100%,DeepSeek對(duì)批量轉(zhuǎn)化詩歌的易感度超過70%。相較之下,OpenAI的GPT-5系列展現(xiàn)出較強(qiáng)抗性,拒絕率達(dá)到90%-95%,但仍有約60條詩歌提示可誘發(fā)信息泄露。
值得注意的是,研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負(fù)相關(guān)。訓(xùn)練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強(qiáng)抵抗力,研究者推測(cè)這可能源于其隱喻解析能力較弱,或與大型模型在文學(xué)文本訓(xùn)練中形成的敘事表征干擾安全機(jī)制有關(guān)。
該研究援引柏拉圖《理想國(guó)》中驅(qū)逐詩人的典故,揭示人工智能時(shí)代語言安全面臨的全新挑戰(zhàn)。團(tuán)隊(duì)呼吁亟需開發(fā)能識(shí)別比喻語言特質(zhì)的防護(hù)機(jī)制,以防此類符合正常語用習(xí)慣的轉(zhuǎn)化攻擊持續(xù)威脅對(duì)齊系統(tǒng)安全。





























浙公網(wǎng)安備 33010502007447號(hào)