官术网_书友最值得收藏!

1.2 人工智能安全的范疇

1.2.1 人工智能安全的范疇與特征

近十幾年來,深度學(xué)習(xí)技術(shù)的突破性發(fā)展使人工智能技術(shù)得到了日益深入且廣泛的運用,并獲得了舉世矚目的成果。與此同時,人工智能系統(tǒng)的研發(fā)與使用過程中暴露出了大量的安全性問題,引起了人們從不同角度對人工智能安全問題廣泛而深切的關(guān)注。

從通常的工程系統(tǒng)的觀點考慮,人工智能系統(tǒng)作為一類特別的工程系統(tǒng),同樣具備其他工程系統(tǒng)可能存在的安全問題。例如,作為一個計算機軟件或硬件的人工智能系統(tǒng),它會具有計算機軟硬件可能存在的安全問題;作為無人駕駛系統(tǒng)、機器人或其他自動控制系統(tǒng)中的人工智能系統(tǒng),它可能存在材料性質(zhì)、機械性能、電器性能、環(huán)境適應(yīng)性等方面的安全性問題。但是,人工智能系統(tǒng)或“智能體”與其他工程系統(tǒng)的根本差別就是其具備“智能”,可以“思考”,可以通過“學(xué)習(xí)”來掌握知識、獲得技能,也可以進行自主性判斷、實施自主活動。區(qū)分于其他工程系統(tǒng)具有普適性的安全問題,本書所討論的人工智能安全問題,主要聚焦人工智能系統(tǒng)因為具備學(xué)習(xí)、思考、判斷、自主決策和行動等智能行為而造成的安全風(fēng)險,既包含人工智能系統(tǒng)自身因為設(shè)計、制造、使用或遭受攻擊而造成的安全風(fēng)險,又包含人工智能技術(shù)的開發(fā)與使用所產(chǎn)生的對其他系統(tǒng)的安全威脅與潛在風(fēng)險。人工智能安全問題引起了人們從技術(shù)[2,10,16-20,31]、法律和倫理[2,21-24,31]、經(jīng)濟和社會發(fā)展[25-29,68]、政治和國家安全[2,29-31]等不同角度的廣泛關(guān)注。

從技術(shù)角度考慮,人工智能系統(tǒng)可以通過學(xué)習(xí)獲得“知識”或者“技能”,并且可以自主做出決策、執(zhí)行行動,這既是人工智能系統(tǒng)相對于其他技術(shù)系統(tǒng)的優(yōu)勢,又是其區(qū)別于其他技術(shù)而產(chǎn)生特別的安全問題或隱患的原因。下面我們主要從人工智能技術(shù)的幾個屬性,以及對人工智能系統(tǒng)的對抗性攻擊等方面分析人工智能安全區(qū)別于其他技術(shù)安全問題的特征。這幾個屬性是機器學(xué)習(xí)算法本身的內(nèi)在屬性,是形成人工智能系統(tǒng)本身安全隱患的關(guān)鍵因素,也是對抗環(huán)境中攻擊者設(shè)計攻擊策略的理論依據(jù)和進行攻擊的薄弱環(huán)節(jié)。

1.機器學(xué)習(xí)的可理解性和可解釋性問題

機器學(xué)習(xí)技術(shù)是人工智能系統(tǒng)廣泛采用的核心技術(shù),而機器學(xué)習(xí)中龐大的網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜的學(xué)習(xí)過程,使人們(即使是領(lǐng)域的專業(yè)人員)難以理解其從大量的數(shù)據(jù)中逐步獲得的結(jié)論,以及基于其獲得的結(jié)論而做出決策的內(nèi)在邏輯,難以用使用者可以理解的方式對其學(xué)習(xí)和推理過程做出解釋,也難以對其推理過程中一個步驟所出現(xiàn)的問題進行追溯。這構(gòu)成了機器學(xué)習(xí)技術(shù)的可理解性和可解釋性問題。人們對于可理解性、可解釋性給出了多種定義,也發(fā)明了多種技術(shù)以增強機器學(xué)習(xí)模型和算法的可理解性和可解釋性[17,32-34,75]。對機器學(xué)習(xí)輸出的判斷或決策的不可理解、不可解釋意味著潛在的安全風(fēng)險,尤其是對于關(guān)鍵問題的決策、關(guān)鍵設(shè)備或過程的控制、醫(yī)療診斷等安全攸關(guān)的應(yīng)用領(lǐng)域,對于收集的數(shù)據(jù)所反映的規(guī)律認識錯誤(如分類錯誤)、決策錯誤甚至產(chǎn)生錯誤的自主行為,均可能造成嚴重的后果。因此,機器學(xué)習(xí)的可理解性和可解釋性是其區(qū)別于其他技術(shù)的安全特性。

2.機器學(xué)習(xí)的魯棒性問題

機器學(xué)習(xí)的魯棒性是影響人工智能安全問題的一個重要因素。機器學(xué)習(xí)的魯棒性要求,即使新的數(shù)據(jù)在學(xué)習(xí)數(shù)據(jù)的基礎(chǔ)上有一定的變化,學(xué)習(xí)所得的結(jié)果也應(yīng)具有適用性。

魯棒性不強的系統(tǒng),其模型的泛化能力不強;當應(yīng)用環(huán)境中數(shù)據(jù)的分布特性與訓(xùn)練數(shù)據(jù)的分布特性存在偏差時,就可能做出意想不到的判斷或決策,蘊含安全風(fēng)險。其風(fēng)險性在于,在應(yīng)用環(huán)境中,機器所給出的判斷(如一個人是否有某種疾病、一個工業(yè)過程是否需要進行某種調(diào)整、一輛自動駕駛的汽車是否需要改變路線或速度等)或決策(如給出醫(yī)療方案、調(diào)整工業(yè)過程的控制參數(shù)或配料、給出停車或轉(zhuǎn)彎的指令等)是根據(jù)訓(xùn)練數(shù)據(jù)所學(xué)到的知識做出的,機器對此在邏輯上具有充分的信心和“理由”,難以引發(fā)懷疑和進一步的驗證,從而可能造成安全事故[35-37,74]。同樣地,即使有安全監(jiān)測系統(tǒng),如果實際應(yīng)用的數(shù)據(jù)分布與訓(xùn)練數(shù)據(jù)分布有較大差距,而安全監(jiān)測系統(tǒng)是在特定的數(shù)據(jù)基礎(chǔ)上訓(xùn)練得出的,則也難以發(fā)現(xiàn)潛在的風(fēng)險。雖然人們提出了一些方法來增強機器學(xué)習(xí)的魯棒性,例如,利用多種分布特性不同的數(shù)據(jù)進行訓(xùn)練,希望訓(xùn)練出來的可以適應(yīng)多種數(shù)據(jù)分布特性的模型,也能適應(yīng)具有新的數(shù)據(jù)分布特性的環(huán)境,但能使得訓(xùn)練出來的模型對數(shù)據(jù)分布的差別有多強大的適應(yīng)性還是問題。另外,在一般的不受故意干擾或攻擊的情況下,系統(tǒng)的魯棒性可能成為系統(tǒng)安全的重要影響因素,在對抗環(huán)境中,如果模型和算法的魯棒性不強,就易被對手利用而進行有針對性的攻擊。

3.目標函數(shù)或獎勵函數(shù)描述的不完備性問題

在機器學(xué)習(xí)中,往往把學(xué)習(xí)問題描述為對一個目標函數(shù)的優(yōu)化,而算法的設(shè)計者對目標函數(shù)的描述和具體的實現(xiàn)難以真正體現(xiàn)其想要達到的目標。原因是設(shè)計者對優(yōu)化目標的描述有誤或者不完善,從而使算法在對所給出的目標函數(shù)進行優(yōu)化時,產(chǎn)生設(shè)計者預(yù)想不到的不良后果。在設(shè)計者對所優(yōu)化的目標函數(shù)給出描述的時候,難以全面考慮各種復(fù)雜的影響因素;另外,隨著時間的推移或應(yīng)用環(huán)境的變更,可能產(chǎn)生一些新的因素,影響設(shè)計者真正意圖的實現(xiàn),但這些因素在目標函數(shù)的描述中沒有得到反映。這種對目標或意圖的錯誤或不完善的描述稱為目標函數(shù)描述的不完備性,其是造成隱含的安全風(fēng)險的重要原因之一[18]。另外,在強化學(xué)習(xí)算法的設(shè)計中,設(shè)計者通常以獎勵函數(shù)的方式鼓勵和引導(dǎo)學(xué)習(xí)算法達到設(shè)計者所期望的目的。然而,獎勵函數(shù)的設(shè)計和描述中同樣存在不完備性(錯誤或不完善),從而可能被學(xué)習(xí)算法在優(yōu)化過程中“搭便車”,通過曲解獎勵的意圖而采取一些行動以獲得最大化的獎勵,字面上符合獎勵函數(shù)形式上的規(guī)則,但事實上卻違背了設(shè)計者的意圖。這種情況通常稱為“Reward Hacking”(黑客獎勵)?;蛘撸瑢W(xué)習(xí)算法也可能以一種“取巧”的方式跨過實現(xiàn)設(shè)計者真實意圖的必要行動,直接獲取最大獎勵而不通過行動實現(xiàn)設(shè)計者的意圖,這稱為Wireheading[35-37]

4.有針對性的對抗攻擊

如果說前面介紹的問題是人工智能模型和算法中存在的安全薄弱環(huán)節(jié),那么在對抗性的應(yīng)用環(huán)境中,對手針對人工智能模型和算法的薄弱環(huán)節(jié)設(shè)計各種攻擊方法的行為,成為人工智能安全的重要隱患[45]。

如前所述,機器學(xué)習(xí)的魯棒性問題容易成為被對手利用而進行攻擊的薄弱環(huán)節(jié)。著名的對抗樣本攻擊就是利用魯棒性不強進行的攻擊。與前文所述的安全風(fēng)險不同的是,前文所述的情況只是應(yīng)用環(huán)境的數(shù)據(jù)分布與訓(xùn)練時的數(shù)據(jù)分布有差距,其原因可能是環(huán)境的變化、過程的變化等,并不是人為因素;在對抗樣本攻擊中,對于一定的模型,攻擊者可以計算出一些有害數(shù)據(jù),僅對數(shù)據(jù)做出微小的(從而難以被人發(fā)現(xiàn)的)擾動,就能使系統(tǒng)做出錯誤的判斷或決策。Szegedy 等人2014年的研究[38]發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)存在對抗樣本,這些對抗樣本可以通過對測試的圖像施以很小的、難以被人覺察的擾動,使網(wǎng)絡(luò)預(yù)測錯誤最大化而得到。文獻[39]提出了一種衡量對抗魯棒性的方法,對于不同分類器的對抗魯棒性,可以量化地進行計算和比較,并且用對抗性示例對訓(xùn)練數(shù)據(jù)進行擴展,從而提升應(yīng)對對抗性攻擊的能力。人們已經(jīng)提出了大量的對抗樣本攻擊與防御的方法,相關(guān)研究[40-42]表明,存在普遍適用的對抗性擾動,可使深度神經(jīng)網(wǎng)絡(luò)做出錯誤的判斷。這種對抗性擾動對不同的數(shù)據(jù)和網(wǎng)絡(luò)均有適用性。另外,人們提出了大量能夠提高機器學(xué)習(xí)魯棒性的技術(shù)[43],如對抗訓(xùn)練[44-46]、防御蒸餾[47,73]、模型正則化[48]等。

除了對抗樣本攻擊,針對機器學(xué)習(xí)的模型、算法、數(shù)據(jù)、運行等不同環(huán)節(jié),還有多種攻擊方法,如數(shù)據(jù)投毒、模型竊取、隱私推斷等,都是人工智能系統(tǒng)的重要安全威脅[31,40,43,49-53]

主站蜘蛛池模板: 清涧县| 新野县| 伊吾县| 湘西| 宜黄县| 临泉县| 天柱县| 朝阳区| 宿州市| 东海县| 峨眉山市| 潮州市| SHOW| 灵川县| 萨迦县| 珲春市| 兴宁市| 武汉市| 东阳市| 滦南县| 泽库县| 三河市| 宁海县| 台中县| 白沙| 连山| 井研县| 乐昌市| 双桥区| 鄱阳县| 张家界市| 修武县| 桐城市| 巴楚县| 南丹县| 黄陵县| 涟水县| 榆社县| 安化县| 丰原市| 望奎县|