1.2 人工智能安全的范疇
1.2.1 人工智能安全的范疇與特征
近十幾年來,深度學(xué)習(xí)技術(shù)的突破性發(fā)展使人工智能技術(shù)得到了日益深入且廣泛的運用,并獲得了舉世矚目的成果。與此同時,人工智能系統(tǒng)的研發(fā)與使用過程中暴露出了大量的安全性問題,引起了人們從不同角度對人工智能安全問題廣泛而深切的關(guān)注。
從通常的工程系統(tǒng)的觀點考慮,人工智能系統(tǒng)作為一類特別的工程系統(tǒng),同樣具備其他工程系統(tǒng)可能存在的安全問題。例如,作為一個計算機軟件或硬件的人工智能系統(tǒng),它會具有計算機軟硬件可能存在的安全問題;作為無人駕駛系統(tǒng)、機器人或其他自動控制系統(tǒng)中的人工智能系統(tǒng),它可能存在材料性質(zhì)、機械性能、電器性能、環(huán)境適應(yīng)性等方面的安全性問題。但是,人工智能系統(tǒng)或“智能體”與其他工程系統(tǒng)的根本差別就是其具備“智能”,可以“思考”,可以通過“學(xué)習(xí)”來掌握知識、獲得技能,也可以進行自主性判斷、實施自主活動。區(qū)分于其他工程系統(tǒng)具有普適性的安全問題,本書所討論的人工智能安全問題,主要聚焦人工智能系統(tǒng)因為具備學(xué)習(xí)、思考、判斷、自主決策和行動等智能行為而造成的安全風(fēng)險,既包含人工智能系統(tǒng)自身因為設(shè)計、制造、使用或遭受攻擊而造成的安全風(fēng)險,又包含人工智能技術(shù)的開發(fā)與使用所產(chǎn)生的對其他系統(tǒng)的安全威脅與潛在風(fēng)險。人工智能安全問題引起了人們從技術(shù)[2,10,16-20,31]、法律和倫理[2,21-24,31]、經(jīng)濟和社會發(fā)展[25-29,68]、政治和國家安全[2,29-31]等不同角度的廣泛關(guān)注。
從技術(shù)角度考慮,人工智能系統(tǒng)可以通過學(xué)習(xí)獲得“知識”或者“技能”,并且可以自主做出決策、執(zhí)行行動,這既是人工智能系統(tǒng)相對于其他技術(shù)系統(tǒng)的優(yōu)勢,又是其區(qū)別于其他技術(shù)而產(chǎn)生特別的安全問題或隱患的原因。下面我們主要從人工智能技術(shù)的幾個屬性,以及對人工智能系統(tǒng)的對抗性攻擊等方面分析人工智能安全區(qū)別于其他技術(shù)安全問題的特征。這幾個屬性是機器學(xué)習(xí)算法本身的內(nèi)在屬性,是形成人工智能系統(tǒng)本身安全隱患的關(guān)鍵因素,也是對抗環(huán)境中攻擊者設(shè)計攻擊策略的理論依據(jù)和進行攻擊的薄弱環(huán)節(jié)。
1.機器學(xué)習(xí)的可理解性和可解釋性問題
機器學(xué)習(xí)技術(shù)是人工智能系統(tǒng)廣泛采用的核心技術(shù),而機器學(xué)習(xí)中龐大的網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜的學(xué)習(xí)過程,使人們(即使是領(lǐng)域的專業(yè)人員)難以理解其從大量的數(shù)據(jù)中逐步獲得的結(jié)論,以及基于其獲得的結(jié)論而做出決策的內(nèi)在邏輯,難以用使用者可以理解的方式對其學(xué)習(xí)和推理過程做出解釋,也難以對其推理過程中一個步驟所出現(xiàn)的問題進行追溯。這構(gòu)成了機器學(xué)習(xí)技術(shù)的可理解性和可解釋性問題。人們對于可理解性、可解釋性給出了多種定義,也發(fā)明了多種技術(shù)以增強機器學(xué)習(xí)模型和算法的可理解性和可解釋性[17,32-34,75]。對機器學(xué)習(xí)輸出的判斷或決策的不可理解、不可解釋意味著潛在的安全風(fēng)險,尤其是對于關(guān)鍵問題的決策、關(guān)鍵設(shè)備或過程的控制、醫(yī)療診斷等安全攸關(guān)的應(yīng)用領(lǐng)域,對于收集的數(shù)據(jù)所反映的規(guī)律認識錯誤(如分類錯誤)、決策錯誤甚至產(chǎn)生錯誤的自主行為,均可能造成嚴重的后果。因此,機器學(xué)習(xí)的可理解性和可解釋性是其區(qū)別于其他技術(shù)的安全特性。
2.機器學(xué)習(xí)的魯棒性問題
機器學(xué)習(xí)的魯棒性是影響人工智能安全問題的一個重要因素。機器學(xué)習(xí)的魯棒性要求,即使新的數(shù)據(jù)在學(xué)習(xí)數(shù)據(jù)的基礎(chǔ)上有一定的變化,學(xué)習(xí)所得的結(jié)果也應(yīng)具有適用性。
魯棒性不強的系統(tǒng),其模型的泛化能力不強;當應(yīng)用環(huán)境中數(shù)據(jù)的分布特性與訓(xùn)練數(shù)據(jù)的分布特性存在偏差時,就可能做出意想不到的判斷或決策,蘊含安全風(fēng)險。其風(fēng)險性在于,在應(yīng)用環(huán)境中,機器所給出的判斷(如一個人是否有某種疾病、一個工業(yè)過程是否需要進行某種調(diào)整、一輛自動駕駛的汽車是否需要改變路線或速度等)或決策(如給出醫(yī)療方案、調(diào)整工業(yè)過程的控制參數(shù)或配料、給出停車或轉(zhuǎn)彎的指令等)是根據(jù)訓(xùn)練數(shù)據(jù)所學(xué)到的知識做出的,機器對此在邏輯上具有充分的信心和“理由”,難以引發(fā)懷疑和進一步的驗證,從而可能造成安全事故[35-37,74]。同樣地,即使有安全監(jiān)測系統(tǒng),如果實際應(yīng)用的數(shù)據(jù)分布與訓(xùn)練數(shù)據(jù)分布有較大差距,而安全監(jiān)測系統(tǒng)是在特定的數(shù)據(jù)基礎(chǔ)上訓(xùn)練得出的,則也難以發(fā)現(xiàn)潛在的風(fēng)險。雖然人們提出了一些方法來增強機器學(xué)習(xí)的魯棒性,例如,利用多種分布特性不同的數(shù)據(jù)進行訓(xùn)練,希望訓(xùn)練出來的可以適應(yīng)多種數(shù)據(jù)分布特性的模型,也能適應(yīng)具有新的數(shù)據(jù)分布特性的環(huán)境,但能使得訓(xùn)練出來的模型對數(shù)據(jù)分布的差別有多強大的適應(yīng)性還是問題。另外,在一般的不受故意干擾或攻擊的情況下,系統(tǒng)的魯棒性可能成為系統(tǒng)安全的重要影響因素,在對抗環(huán)境中,如果模型和算法的魯棒性不強,就易被對手利用而進行有針對性的攻擊。
3.目標函數(shù)或獎勵函數(shù)描述的不完備性問題
在機器學(xué)習(xí)中,往往把學(xué)習(xí)問題描述為對一個目標函數(shù)的優(yōu)化,而算法的設(shè)計者對目標函數(shù)的描述和具體的實現(xiàn)難以真正體現(xiàn)其想要達到的目標。原因是設(shè)計者對優(yōu)化目標的描述有誤或者不完善,從而使算法在對所給出的目標函數(shù)進行優(yōu)化時,產(chǎn)生設(shè)計者預(yù)想不到的不良后果。在設(shè)計者對所優(yōu)化的目標函數(shù)給出描述的時候,難以全面考慮各種復(fù)雜的影響因素;另外,隨著時間的推移或應(yīng)用環(huán)境的變更,可能產(chǎn)生一些新的因素,影響設(shè)計者真正意圖的實現(xiàn),但這些因素在目標函數(shù)的描述中沒有得到反映。這種對目標或意圖的錯誤或不完善的描述稱為目標函數(shù)描述的不完備性,其是造成隱含的安全風(fēng)險的重要原因之一[18]。另外,在強化學(xué)習(xí)算法的設(shè)計中,設(shè)計者通常以獎勵函數(shù)的方式鼓勵和引導(dǎo)學(xué)習(xí)算法達到設(shè)計者所期望的目的。然而,獎勵函數(shù)的設(shè)計和描述中同樣存在不完備性(錯誤或不完善),從而可能被學(xué)習(xí)算法在優(yōu)化過程中“搭便車”,通過曲解獎勵的意圖而采取一些行動以獲得最大化的獎勵,字面上符合獎勵函數(shù)形式上的規(guī)則,但事實上卻違背了設(shè)計者的意圖。這種情況通常稱為“Reward Hacking”(黑客獎勵)?;蛘撸瑢W(xué)習(xí)算法也可能以一種“取巧”的方式跨過實現(xiàn)設(shè)計者真實意圖的必要行動,直接獲取最大獎勵而不通過行動實現(xiàn)設(shè)計者的意圖,這稱為Wireheading[35-37]。
4.有針對性的對抗攻擊
如果說前面介紹的問題是人工智能模型和算法中存在的安全薄弱環(huán)節(jié),那么在對抗性的應(yīng)用環(huán)境中,對手針對人工智能模型和算法的薄弱環(huán)節(jié)設(shè)計各種攻擊方法的行為,成為人工智能安全的重要隱患[45]。
如前所述,機器學(xué)習(xí)的魯棒性問題容易成為被對手利用而進行攻擊的薄弱環(huán)節(jié)。著名的對抗樣本攻擊就是利用魯棒性不強進行的攻擊。與前文所述的安全風(fēng)險不同的是,前文所述的情況只是應(yīng)用環(huán)境的數(shù)據(jù)分布與訓(xùn)練時的數(shù)據(jù)分布有差距,其原因可能是環(huán)境的變化、過程的變化等,并不是人為因素;在對抗樣本攻擊中,對于一定的模型,攻擊者可以計算出一些有害數(shù)據(jù),僅對數(shù)據(jù)做出微小的(從而難以被人發(fā)現(xiàn)的)擾動,就能使系統(tǒng)做出錯誤的判斷或決策。Szegedy 等人2014年的研究[38]發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)存在對抗樣本,這些對抗樣本可以通過對測試的圖像施以很小的、難以被人覺察的擾動,使網(wǎng)絡(luò)預(yù)測錯誤最大化而得到。文獻[39]提出了一種衡量對抗魯棒性的方法,對于不同分類器的對抗魯棒性,可以量化地進行計算和比較,并且用對抗性示例對訓(xùn)練數(shù)據(jù)進行擴展,從而提升應(yīng)對對抗性攻擊的能力。人們已經(jīng)提出了大量的對抗樣本攻擊與防御的方法,相關(guān)研究[40-42]表明,存在普遍適用的對抗性擾動,可使深度神經(jīng)網(wǎng)絡(luò)做出錯誤的判斷。這種對抗性擾動對不同的數(shù)據(jù)和網(wǎng)絡(luò)均有適用性。另外,人們提出了大量能夠提高機器學(xué)習(xí)魯棒性的技術(shù)[43],如對抗訓(xùn)練[44-46]、防御蒸餾[47,73]、模型正則化[48]等。
除了對抗樣本攻擊,針對機器學(xué)習(xí)的模型、算法、數(shù)據(jù)、運行等不同環(huán)節(jié),還有多種攻擊方法,如數(shù)據(jù)投毒、模型竊取、隱私推斷等,都是人工智能系統(tǒng)的重要安全威脅[31,40,43,49-53]。
- 成為提問工程師
- 機器學(xué)習(xí)算法競賽實戰(zhàn)
- 機器學(xué)習(xí)實戰(zhàn):模型構(gòu)建與應(yīng)用
- AI時代,學(xué)什么,怎么學(xué)
- 深度學(xué)習(xí)原理與應(yīng)用
- 人工不智能:計算機如何誤解世界(見識叢書52)
- PaddlePaddle深度學(xué)習(xí)實戰(zhàn)
- Manus應(yīng)用與AI Agent設(shè)計指南:從入門到精通
- 深度學(xué)習(xí)與圖像識別:原理與實踐
- 機器人傳感器及其信息融合技術(shù)
- 李開復(fù)談AI人工智能(套裝2冊)
- 焊接機器人基本操作及應(yīng)用
- 大模型垂直領(lǐng)域低算力遷移:微調(diào)、部署與優(yōu)化
- 深度學(xué)習(xí)進階:自然語言處理
- TensorFlow自然語言處理