人工智能大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用從內(nèi)容創(chuàng)作、客戶服務(wù)到教育和軟件開(kāi)發(fā),這些模型的變革潛力日益凸顯。確保其安全性、魯棒性已成為一個(gè)至關(guān)重要的問(wèn)題。特別是"越獄攻擊"通過(guò)精心設(shè)計(jì)的提示詞繞過(guò)安全約束并引發(fā)有害、偏見(jiàn)或不道德輸出的對(duì)抗性攻擊,已經(jīng)成為大語(yǔ)言模型安全領(lǐng)域的系統(tǒng)性和嚴(yán)峻的挑戰(zhàn)。
北京前瞻人工智能安全與治理研究院、人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)院自動(dòng)化研究所人工智能倫理與治理中心聯(lián)合團(tuán)隊(duì)正式發(fā)布靈御(PandaGuard)大模型安全攻防評(píng)估平臺(tái),該平臺(tái)創(chuàng)新性地采用多智能體系統(tǒng)建模方法對(duì)越獄攻擊進(jìn)行系統(tǒng)性評(píng)估。該框架在現(xiàn)有研究基礎(chǔ)上實(shí)現(xiàn)了重要突破,為構(gòu)建安全可控的人工智能生態(tài)提供了重要保障。
6月5日,2025全球數(shù)字經(jīng)濟(jì)大會(huì)(GDEC2025)數(shù)字安全主論壇暨2025北京網(wǎng)絡(luò)安全大會(huì)(BCS2025)召開(kāi),前瞻研究院院長(zhǎng)、北京市重點(diǎn)實(shí)驗(yàn)室主任曾毅受邀發(fā)表主旨演講,介紹靈御平臺(tái)及從人工智能安全到安全人工智能的發(fā)展戰(zhàn)略。

靈御(PandaGuard)平臺(tái)通過(guò)將大語(yǔ)言模型越獄安全概念化為多智能體系統(tǒng)來(lái)解決這些挑戰(zhàn)。在這個(gè)系統(tǒng)中,攻擊者、防御者、目標(biāo)模型和安全判斷器相互作用??蚣艹橄蟛⒛K化了每個(gè)組件,支持即插即用的實(shí)驗(yàn),包含19種攻擊算法、12種防御機(jī)制和多種判斷策略,對(duì)49個(gè)開(kāi)源和閉源大語(yǔ)言模型安全性進(jìn)行了系統(tǒng)化評(píng)估。靈御平臺(tái)的這種設(shè)計(jì)促進(jìn)了可控的、可重現(xiàn)的評(píng)估,并使得能夠?qū)δP桶踩械目缃M件權(quán)衡進(jìn)行深度分析。平臺(tái)實(shí)踐證明,世界上提出的所有安全護(hù)欄沒(méi)有一個(gè)可以防護(hù)住所有的攻擊算法,也沒(méi)有一個(gè)攻擊算法可以突破所有的安全護(hù)欄。在人工智能安全防護(hù)領(lǐng)域還有很長(zhǎng)的路要走。

研究發(fā)現(xiàn),不同時(shí)間發(fā)布的人工智能大模型并沒(méi)有隨著模型能力的提升而同時(shí)獲得模型的安全性,近期發(fā)布的國(guó)內(nèi)外能力更強(qiáng)大的人工智能模型安全性并沒(méi)有展現(xiàn)出顯著的優(yōu)勢(shì)。一些較新的模型在某些安全指標(biāo)上可能不如早期版本,這揭示了一個(gè)重要事實(shí):安全性能的提升需要專門的優(yōu)化投入,而不是模型能力提高的自然副產(chǎn)品。我國(guó)的人工智能大模型安全性方面總體處于中等水平,特別是針對(duì)很多新近發(fā)布的大模型,針對(duì)越獄攻擊等方面的安全性上還有較大提升空間。曾毅院長(zhǎng)說(shuō):現(xiàn)在國(guó)內(nèi)外沒(méi)有一個(gè)絕對(duì)安全的人工智能大模型,但通過(guò)類似靈御平臺(tái)這樣的AI安全護(hù)欄加固,每一個(gè)大模型都可以做到更安全。

秉承開(kāi)放合作的理念,靈御人工智能安全攻防平臺(tái)的核心框架已開(kāi)源開(kāi)放,研究團(tuán)隊(duì)發(fā)布了完整的代碼、配置和評(píng)估結(jié)果,以支持大語(yǔ)言模型安全領(lǐng)域的透明和可重現(xiàn)研究。這種開(kāi)放態(tài)度不僅有助于學(xué)術(shù)界的進(jìn)一步研究,也為產(chǎn)業(yè)界的實(shí)際應(yīng)用提供了便利。
北京前瞻人工智能安全與治理研究院、人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)院自動(dòng)化研究所人工智能倫理與治理中心聯(lián)合團(tuán)隊(duì)希望與產(chǎn)業(yè)界共同打造安全治理生態(tài),將通過(guò)政產(chǎn)研協(xié)作的方式繼續(xù)致力于擴(kuò)展靈御人工智能安全攻防評(píng)估平臺(tái)與基準(zhǔn),服務(wù)于產(chǎn)業(yè)、科研與政府在人工智能安全治理領(lǐng)域的需求與應(yīng)用。
在大會(huì)的主旨演講結(jié)束的時(shí)候,曾毅院長(zhǎng)總結(jié)到:“安全與治理是人工智能核心能力,將加速人工智能穩(wěn)健發(fā)展與應(yīng)用。我們的前沿研究表明,如果把安全與模型能力比作魚與熊掌,實(shí)則可以兼得。沒(méi)有安全治理框架的人工智能不僅是沒(méi)有“剎車”,更是沒(méi)有“方向盤”。
免責(zé)聲明:本文不構(gòu)成任何商業(yè)建議,投資有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!本站發(fā)布的圖文一切為分享交流,傳播正能量,此文不保證數(shù)據(jù)的準(zhǔn)確性,內(nèi)容僅供參考
關(guān)鍵詞:
靈御(PandaGuard) 人工智能大模型安全攻防評(píng)估平臺(tái)正式發(fā)布:人工智能北京力量護(hù)...
人工智能大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用從內(nèi)容創(chuàng)作、客戶服務(wù)到教育和軟件開(kāi)發(fā),這些模型的變革潛力日益凸顯。確保其安全性、魯棒性已成為
第三屆中國(guó)觀賞石網(wǎng)絡(luò)博覽會(huì)評(píng)選金獎(jiǎng)奇石第一期活動(dòng)正式啟動(dòng)了
由中國(guó)觀賞石網(wǎng)絡(luò)博覽會(huì)組委會(huì),中國(guó)奇石展網(wǎng)主辦,河南京皓網(wǎng)絡(luò)科技有限公司、鄧州市觀賞石協(xié)會(huì)承辦的2020第三屆中國(guó)觀賞石網(wǎng)絡(luò)博覽會(huì)評(píng)選
靈御(PandaGuard) 人工智能大模型安全攻防評(píng)估平臺(tái)正式發(fā)布:人工智能北京力量護(hù)...
人工智能大語(yǔ)言模型在各個(gè)領(lǐng)域的廣...
川酒集團(tuán)官方定制小程序煥新上線 開(kāi)啟白酒個(gè)性化定制新體驗(yàn)
4類定制、2000多個(gè)組合,滿足12種...
歐洲央行再次下調(diào)三大關(guān)鍵利率
6月5日,歐洲中央銀行副行長(zhǎng)路易斯...
足球——世預(yù)賽:中國(guó)隊(duì)不敵印尼隊(duì)
6月5日,中國(guó)隊(duì)球員張玉寧(左三)在...
2025上海國(guó)際碳中和博覽會(huì)開(kāi)幕
6月5日,工作人員(右)在向參觀者介...
關(guān)注眼健康 迎接愛(ài)眼日
6月5日,在江蘇省興化市景范學(xué)校,...
取得關(guān)鍵資質(zhì)!AES100發(fā)動(dòng)機(jī)獲頒生產(chǎn)許可證
這是6月5日在AES100發(fā)動(dòng)機(jī)研制工作...
葡萄牙新政府宣誓就職
6月5日,在葡萄牙里斯本阿茹達(dá)宮,...
天問(wèn)二號(hào)探測(cè)器在軌飛行正常 圓形柔性太陽(yáng)翼展開(kāi)圖片發(fā)布
截至6月6日上午,天問(wèn)二號(hào)探測(cè)器已...
2025北京智源大會(huì)開(kāi)幕 智源發(fā)布“悟界”系列大模型
2025年6月6日,第七屆北京智源大會(huì)...
各地全力保障 暖心護(hù)航高考
6月4日,河南省沁陽(yáng)市啟動(dòng)愛(ài)心助考...
泉州公路系統(tǒng)應(yīng)急演練 筑牢防汛安全屏障
為全面提升公路系統(tǒng)防災(zāi)減災(zāi)救災(zāi)能...
福建安溪:校地雙向賦能 產(chǎn)教融合打造縣域經(jīng)濟(jì)新樣本
風(fēng)從農(nóng)大來(lái),勢(shì)從安溪起。不久前,...
警銀聯(lián)動(dòng)--工行三明將樂(lè)支行成功攔截萬(wàn)元被騙資金守護(hù)百姓“錢袋子”
近日,將樂(lè)縣政府打擊治理電信網(wǎng)絡(luò)...