近日,人工智能學(xué)院“人工智能與安全團(tuán)隊(duì)”在模型安全防御領(lǐng)域取得新的進(jìn)展,相關(guān)研究成果《F2AT: Feature-Focusing Adversarial Training via Disentanglement of Natural and Perturbed Patterns》在線發(fā)表于《IEEE Transactions on Knowledge and Data Engineering》(TKDE)。人工智能學(xué)院錢亞冠教授為論文第一作者,22 級(jí)研究生趙陳雨為第二作者,哈爾濱工業(yè)大學(xué)顧釗銓教授、海康威視王濱研究員為論文通訊作者,浙江大學(xué)紀(jì)守領(lǐng)教授、西安交通大學(xué)王偉教授、維多利亞大學(xué)張彥春教授等參與論文完成。浙江科技大學(xué)為第一單位。

論文針對(duì)深度神經(jīng)網(wǎng)絡(luò)(DNN)容易受到由精心設(shè)計(jì)的擾動(dòng)(對(duì)抗噪聲)的影響,可能給自動(dòng)駕駛汽車、監(jiān)控安全、醫(yī)療診斷等關(guān)鍵應(yīng)用帶來災(zāi)難性后果的挑戰(zhàn),提出一種新穎的對(duì)抗性訓(xùn)練防御方法。在傳統(tǒng)的對(duì)抗訓(xùn)練中,DNN仍然會(huì)學(xué)習(xí)到虛假特征,難以在準(zhǔn)確性和魯棒性之間取得良好的平衡。其內(nèi)在原因是傳統(tǒng)的對(duì)抗訓(xùn)練無法很好地分離噪聲和良性樣本,因此難以從對(duì)抗性樣本中充分學(xué)習(xí)到核心特征。論文假設(shè)較高的位平面代表自然模式,較低的位平面代表擾動(dòng)模式,通過位平面切片的思路,將對(duì)抗樣本分解為自然模式和擾動(dòng)模式,從而有效地分離噪聲和干凈樣本。進(jìn)而提出了特征聚焦的對(duì)抗性訓(xùn)練(F2AT)思路,強(qiáng)制模型關(guān)注自然模式中的核心特征,并減少來自擾動(dòng)模式的虛假特征的影響。論文通過嚴(yán)格的理論證明和全面的實(shí)驗(yàn)評(píng)估,表明該方法可以顯著提高識(shí)別的準(zhǔn)確率和對(duì)抗魯棒性。
TKDE作為中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)與中國(guó)人工智能學(xué)會(huì)(CAAI)共同推薦的A類期刊,在人工智能與數(shù)據(jù)科學(xué)領(lǐng)域享有極高的學(xué)術(shù)聲譽(yù)此次成果發(fā)表系我校首次在該期刊發(fā)表研究論文。本研究工作得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金面上項(xiàng)目、浙江省自然科學(xué)基金重點(diǎn)項(xiàng)目等的資助。(人工智能學(xué)院 袁園 )