原始标题未提供,请补充
先說一個核心判斷:主流AI開發商對自家模型安全性的宣傳,很可能建立在一個錯誤的假設之上。思科安全研究團隊發布的最新報告,直接戳破了這個迷思。
問題出在哪?思科研究團隊發現,AI廠商普遍假設:只要模型能抵擋一次性惡意提示詞攻擊,就代表它是安全的。這個邏輯在真實世界裡過於天真。黑客早已升級攻擊手法,大量採用多階段、連環套式的提示詞來繞過防禦,而絕大多數模型對這類「組合拳」幾乎毫無招架之力。
這份新報告揭露了一個被嚴重低估的安全漏洞。對於正在將AI工具導入業務流程的企業來說,這意味著無法預期的干擾和潛在損失。
研究人員Nicholas Conley與Amy Chang針對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI的15個主流AI模型進行系統性測試。他們發現一個關鍵落差:「單輪攻擊的成功率,完全無法反映攻擊者在多輪對話中不斷調整策略時的真實風險。」
測試結果極具說服力。AI模型對多輪惡意提示詞的脆弱性高出許多——成功率從8%到驚人的88%不等。相比之下,單輪提示詞的成功率範圍則落在2%到65%。
「我們測試的每一個模型,都展現出不容忽視的多輪攻擊成功率。」Conley和Chang在報告中寫道。
值得玩味的是,這並非單一案例。這兩位研究人員早在2025年11月的報告中就發現,開源權重AI模型對多輪攻擊的脆弱性,是單輪攻擊的2到10倍。而這次,他們在閉源模型上觀察到同樣的模式:「在迭代攻擊下,這批前沿閉源模型中,沒有一個可以被稱為安全。這是一個關於當前閉源模型前沿狀態的判斷,並非針對任何單一廠商。」
這項研究最耐人尋味的發現之一,是AI公司的優先級與其模型安全性之間存在清晰的相關性。Conley與Chang發現,那些公開高調強調模型能力提升的開發商,其模型在單輪與多輪攻擊脆弱性之間的差距最大。而那些公開反覆強調模型安全性的開發商,這個差距明顯小得多——顯示他們在降低風險上確實投入了更協調一致的努力。
研究人員測試了五種攻擊策略:角色扮演、誤導模型、信息分解、重新框定模型拒絕以及漸進式升級。表現最差的是xAI的Grok 4.1 Fast Non-Reasoning模型,研究人員在88%的多輪攻擊中成功得手。(該模型的單輪攻擊成功率為34%。)
表現最好的則是亞馬遜的Nova 2 Lite模型,僅在8%的多階段攻擊中失守。即便如此,研究人員冷靜指出,8%「仍然代表著有意義的殘餘風險」。
報告中還提到一個重要細節:啟用推理功能後,Grok 4.1的表現明顯改善。這說明,AI廠商應該像記錄模型參數一樣,完整記錄「推理狀態」等配置決策對安全性的影響。
截至發稿,OpenAI、Anthropic、谷歌、亞馬遜和xAI均未對置評請求做出回應。
研究人員的最終建議非常明確:廠商需要徹底重新思考如何評估AI模型的安全性。而對於企業來說,必須取得更多關於模型在單輪與多輪攻擊下抵禦能力之間潛在差距的信息,才能做出明智的商業決策。
「基於已發布的單輪評分來做商業決策,會帶來嚴重的安全與治理風險,」Conley與Chang寫道。「一個單輪攻擊成功率為2.74%的模型,與一個多輪攻擊成功率維持在24.68%的模型,完全是兩個產品。如果沒有配套機制數據,在絕大多數公開評估中,兩者根本無法區分,最終用戶永遠看不到這個巨大落差。」
Q&A
Q1:什麼是多輪攻擊?它與單輪攻擊有什麼不同?
A:多輪攻擊是指黑客利用多階段提示詞逐步繞過AI模型防禦的攻擊方式,而單輪攻擊是一次性發送惡意提示詞。研究顯示,AI模型對多輪攻擊的脆弱性遠高於單輪攻擊,成功率範圍從8%到88%,而單輪攻擊成功率僅為2%到65%。
Q2:思科測試的AI模型中哪個表現最差?哪個最好?
A:xAI的Grok 4.1 Fast Non-Reasoning模型表現最差,研究人員在88%的多輪攻擊中成功突破其防禦。表現最好的是亞馬遜的Nova 2 Lite模型,僅在8%的多階段攻擊中失守,但研究人員強調這仍存在有意義的殘餘風險。
Q3:AI廠商的優先事項如何影響模型安全性?
A:研究發現,公開強調模型能力提升的AI開發商,其模型在單輪與多輪攻擊脆弱性之間的差距最大。而強調模型安全性的開發商差距較小,顯示他們在降低風險方面做出了更協調一致的努力。這說明廠商的關注重點直接影響模型的實際安全水準。
