精品一区二区无码毛片|中日无码av中文字幕久久|先锋影音中文字幕一区|国产乱码久久久久久高潮视频|手机AV每日更新在线观看|国产原创剧情一区二区三区

AI安全防護(hù)再遭挑戰(zhàn):Anthropic研究發(fā)現(xiàn)大型語言模型“越獄”漏洞

Anthropic公司近期發(fā)布了一項(xiàng)關(guān)于大型語言模型(LLM)安全防護(hù)的研究,揭示了當(dāng)前AI模型在應(yīng)對(duì)惡意攻擊時(shí)的脆弱性。研究表明,通過簡單的提示詞格式調(diào)整,如大小寫混合或單詞順序打亂,攻擊者可以輕松繞過AI模型的安全防護(hù),誘導(dǎo)其生成有害內(nèi)容。

為了驗(yàn)證這一發(fā)現(xiàn),Anthropic與牛津大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)合作,開發(fā)了一種名為“最佳N次”(BoN)的自動(dòng)化越獄算法。該算法通過重復(fù)采樣提示詞的變體,并結(jié)合隨機(jī)打亂字母順序、大小寫轉(zhuǎn)換等手段,成功在多個(gè)主流AI模型上實(shí)現(xiàn)了超過50%的攻擊成功率。

研究人員在測(cè)試中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。結(jié)果顯示,BoN越獄方法在10,000次嘗試內(nèi),均能成功繞過這些模型的安全防護(hù)。

此外,研究還發(fā)現(xiàn),基于語音或圖像的提示方式同樣存在安全漏洞。通過改變音頻的速度、音調(diào)或添加噪音,攻擊者可以繞過語音提示的安全防護(hù);而通過調(diào)整圖像的字體、背景顏色或大小,也能成功誘導(dǎo)AI模型生成不當(dāng)內(nèi)容。

Anthropic的研究并非僅為了揭示漏洞,而是希望通過生成大量攻擊數(shù)據(jù),為開發(fā)更強(qiáng)大的防御機(jī)制提供支持。這一研究為AI安全領(lǐng)域敲響了警鐘,提醒開發(fā)者在追求模型性能的同時(shí),必須更加重視安全防護(hù)的設(shè)計(jì)與優(yōu)化。

最新文章
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1