捕鱼机怎么改逆变器

書名：人工智能安全
作者名：陳左寧主編
本章字數(shù)： 10字
更新時間： 2024-05-24 18:26:25

1.2 人工智能安全的范疇

1.2.1 人工智能安全的范疇與特征

近十幾年來，深度學(xué)習(xí)技術(shù)的突破性發(fā)展使人工智能技術(shù)得到了日益深入且廣泛的運用，并獲得了舉世矚目的成果。與此同時，人工智能系統(tǒng)的研發(fā)與使用過程中暴露出了大量的安全性問題，引起了人們從不同角度對人工智能安全問題廣泛而深切的關(guān)注。

從通常的工程系統(tǒng)的觀點考慮，人工智能系統(tǒng)作為一類特別的工程系統(tǒng)，同樣具備其他工程系統(tǒng)可能存在的安全問題。例如，作為一個計算機軟件或硬件的人工智能系統(tǒng)，它會具有計算機軟硬件可能存在的安全問題；作為無人駕駛系統(tǒng)、機器人或其他自動控制系統(tǒng)中的人工智能系統(tǒng)，它可能存在材料性質(zhì)、機械性能、電器性能、環(huán)境適應(yīng)性等方面的安全性問題。但是，人工智能系統(tǒng)或“智能體”與其他工程系統(tǒng)的根本差別就是其具備“智能”，可以“思考”，可以通過“學(xué)習(xí)”來掌握知識、獲得技能，也可以進行自主性判斷、實施自主活動。區(qū)分于其他工程系統(tǒng)具有普適性的安全問題，本書所討論的人工智能安全問題，主要聚焦人工智能系統(tǒng)因為具備學(xué)習(xí)、思考、判斷、自主決策和行動等智能行為而造成的安全風(fēng)險，既包含人工智能系統(tǒng)自身因為設(shè)計、制造、使用或遭受攻擊而造成的安全風(fēng)險，又包含人工智能技術(shù)的開發(fā)與使用所產(chǎn)生的對其他系統(tǒng)的安全威脅與潛在風(fēng)險。人工智能安全問題引起了人們從技術(shù)[2，10，16-20，31]、法律和倫理[2，21-24，31]、經(jīng)濟和社會發(fā)展[25-29，68]、政治和國家安全[2，29-31]等不同角度的廣泛關(guān)注。

從技術(shù)角度考慮，人工智能系統(tǒng)可以通過學(xué)習(xí)獲得“知識”或者“技能”，并且可以自主做出決策、執(zhí)行行動，這既是人工智能系統(tǒng)相對于其他技術(shù)系統(tǒng)的優(yōu)勢，又是其區(qū)別于其他技術(shù)而產(chǎn)生特別的安全問題或隱患的原因。下面我們主要從人工智能技術(shù)的幾個屬性，以及對人工智能系統(tǒng)的對抗性攻擊等方面分析人工智能安全區(qū)別于其他技術(shù)安全問題的特征。這幾個屬性是機器學(xué)習(xí)算法本身的內(nèi)在屬性，是形成人工智能系統(tǒng)本身安全隱患的關(guān)鍵因素，也是對抗環(huán)境中攻擊者設(shè)計攻擊策略的理論依據(jù)和進行攻擊的薄弱環(huán)節(jié)。

1.機器學(xué)習(xí)的可理解性和可解釋性問題

機器學(xué)習(xí)技術(shù)是人工智能系統(tǒng)廣泛采用的核心技術(shù)，而機器學(xué)習(xí)中龐大的網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜的學(xué)習(xí)過程，使人們（即使是領(lǐng)域的專業(yè)人員）難以理解其從大量的數(shù)據(jù)中逐步獲得的結(jié)論，以及基于其獲得的結(jié)論而做出決策的內(nèi)在邏輯，難以用使用者可以理解的方式對其學(xué)習(xí)和推理過程做出解釋，也難以對其推理過程中一個步驟所出現(xiàn)的問題進行追溯。這構(gòu)成了機器學(xué)習(xí)技術(shù)的可理解性和可解釋性問題。人們對于可理解性、可解釋性給出了多種定義，也發(fā)明了多種技術(shù)以增強機器學(xué)習(xí)模型和算法的可理解性和可解釋性[17，32-34，75]。對機器學(xué)習(xí)輸出的判斷或決策的不可理解、不可解釋意味著潛在的安全風(fēng)險，尤其是對于關(guān)鍵問題的決策、關(guān)鍵設(shè)備或過程的控制、醫(yī)療診斷等安全攸關(guān)的應(yīng)用領(lǐng)域，對于收集的數(shù)據(jù)所反映的規(guī)律認識錯誤（如分類錯誤）、決策錯誤甚至產(chǎn)生錯誤的自主行為，均可能造成嚴重的后果。因此，機器學(xué)習(xí)的可理解性和可解釋性是其區(qū)別于其他技術(shù)的安全特性。

2.機器學(xué)習(xí)的魯棒性問題

機器學(xué)習(xí)的魯棒性是影響人工智能安全問題的一個重要因素。機器學(xué)習(xí)的魯棒性要求，即使新的數(shù)據(jù)在學(xué)習(xí)數(shù)據(jù)的基礎(chǔ)上有一定的變化，學(xué)習(xí)所得的結(jié)果也應(yīng)具有適用性。

魯棒性不強的系統(tǒng)，其模型的泛化能力不強；當應(yīng)用環(huán)境中數(shù)據(jù)的分布特性與訓(xùn)練數(shù)據(jù)的分布特性存在偏差時，就可能做出意想不到的判斷或決策，蘊含安全風(fēng)險。其風(fēng)險性在于，在應(yīng)用環(huán)境中，機器所給出的判斷（如一個人是否有某種疾病、一個工業(yè)過程是否需要進行某種調(diào)整、一輛自動駕駛的汽車是否需要改變路線或速度等）或決策（如給出醫(yī)療方案、調(diào)整工業(yè)過程的控制參數(shù)或配料、給出停車或轉(zhuǎn)彎的指令等）是根據(jù)訓(xùn)練數(shù)據(jù)所學(xué)到的知識做出的，機器對此在邏輯上具有充分的信心和“理由”，難以引發(fā)懷疑和進一步的驗證，從而可能造成安全事故[35-37，74]。同樣地，即使有安全監(jiān)測系統(tǒng)，如果實際應(yīng)用的數(shù)據(jù)分布與訓(xùn)練數(shù)據(jù)分布有較大差距，而安全監(jiān)測系統(tǒng)是在特定的數(shù)據(jù)基礎(chǔ)上訓(xùn)練得出的，則也難以發(fā)現(xiàn)潛在的風(fēng)險。雖然人們提出了一些方法來增強機器學(xué)習(xí)的魯棒性，例如，利用多種分布特性不同的數(shù)據(jù)進行訓(xùn)練，希望訓(xùn)練出來的可以適應(yīng)多種數(shù)據(jù)分布特性的模型，也能適應(yīng)具有新的數(shù)據(jù)分布特性的環(huán)境，但能使得訓(xùn)練出來的模型對數(shù)據(jù)分布的差別有多強大的適應(yīng)性還是問題。另外，在一般的不受故意干擾或攻擊的情況下，系統(tǒng)的魯棒性可能成為系統(tǒng)安全的重要影響因素，在對抗環(huán)境中，如果模型和算法的魯棒性不強，就易被對手利用而進行有針對性的攻擊。

3.目標函數(shù)或獎勵函數(shù)描述的不完備性問題

在機器學(xué)習(xí)中，往往把學(xué)習(xí)問題描述為對一個目標函數(shù)的優(yōu)化，而算法的設(shè)計者對目標函數(shù)的描述和具體的實現(xiàn)難以真正體現(xiàn)其想要達到的目標。原因是設(shè)計者對優(yōu)化目標的描述有誤或者不完善，從而使算法在對所給出的目標函數(shù)進行優(yōu)化時，產(chǎn)生設(shè)計者預(yù)想不到的不良后果。在設(shè)計者對所優(yōu)化的目標函數(shù)給出描述的時候，難以全面考慮各種復(fù)雜的影響因素；另外，隨著時間的推移或應(yīng)用環(huán)境的變更，可能產(chǎn)生一些新的因素，影響設(shè)計者真正意圖的實現(xiàn)，但這些因素在目標函數(shù)的描述中沒有得到反映。這種對目標或意圖的錯誤或不完善的描述稱為目標函數(shù)描述的不完備性，其是造成隱含的安全風(fēng)險的重要原因之一[18]。另外，在強化學(xué)習(xí)算法的設(shè)計中，設(shè)計者通常以獎勵函數(shù)的方式鼓勵和引導(dǎo)學(xué)習(xí)算法達到設(shè)計者所期望的目的。然而，獎勵函數(shù)的設(shè)計和描述中同樣存在不完備性（錯誤或不完善），從而可能被學(xué)習(xí)算法在優(yōu)化過程中“搭便車”，通過曲解獎勵的意圖而采取一些行動以獲得最大化的獎勵，字面上符合獎勵函數(shù)形式上的規(guī)則，但事實上卻違背了設(shè)計者的意圖。這種情況通常稱為“Reward Hacking”（黑客獎勵）?；蛘撸瑢W(xué)習(xí)算法也可能以一種“取巧”的方式跨過實現(xiàn)設(shè)計者真實意圖的必要行動，直接獲取最大獎勵而不通過行動實現(xiàn)設(shè)計者的意圖，這稱為Wireheading[35-37]。

4.有針對性的對抗攻擊

如果說前面介紹的問題是人工智能模型和算法中存在的安全薄弱環(huán)節(jié)，那么在對抗性的應(yīng)用環(huán)境中，對手針對人工智能模型和算法的薄弱環(huán)節(jié)設(shè)計各種攻擊方法的行為，成為人工智能安全的重要隱患[45]。

如前所述，機器學(xué)習(xí)的魯棒性問題容易成為被對手利用而進行攻擊的薄弱環(huán)節(jié)。著名的對抗樣本攻擊就是利用魯棒性不強進行的攻擊。與前文所述的安全風(fēng)險不同的是，前文所述的情況只是應(yīng)用環(huán)境的數(shù)據(jù)分布與訓(xùn)練時的數(shù)據(jù)分布有差距，其原因可能是環(huán)境的變化、過程的變化等，并不是人為因素；在對抗樣本攻擊中，對于一定的模型，攻擊者可以計算出一些有害數(shù)據(jù)，僅對數(shù)據(jù)做出微小的（從而難以被人發(fā)現(xiàn)的）擾動，就能使系統(tǒng)做出錯誤的判斷或決策。Szegedy 等人2014年的研究[38]發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)存在對抗樣本，這些對抗樣本可以通過對測試的圖像施以很小的、難以被人覺察的擾動，使網(wǎng)絡(luò)預(yù)測錯誤最大化而得到。文獻[39]提出了一種衡量對抗魯棒性的方法，對于不同分類器的對抗魯棒性，可以量化地進行計算和比較，并且用對抗性示例對訓(xùn)練數(shù)據(jù)進行擴展，從而提升應(yīng)對對抗性攻擊的能力。人們已經(jīng)提出了大量的對抗樣本攻擊與防御的方法，相關(guān)研究[40-42]表明，存在普遍適用的對抗性擾動，可使深度神經(jīng)網(wǎng)絡(luò)做出錯誤的判斷。這種對抗性擾動對不同的數(shù)據(jù)和網(wǎng)絡(luò)均有適用性。另外，人們提出了大量能夠提高機器學(xué)習(xí)魯棒性的技術(shù)[43]，如對抗訓(xùn)練[44-46]、防御蒸餾[47，73]、模型正則化[48]等。

除了對抗樣本攻擊，針對機器學(xué)習(xí)的模型、算法、數(shù)據(jù)、運行等不同環(huán)節(jié)，還有多種攻擊方法，如數(shù)據(jù)投毒、模型竊取、隱私推斷等，都是人工智能系統(tǒng)的重要安全威脅[31，40，43，49-53]。

官术网_书友最值得收藏!

人工智能安全

1.2 人工智能安全的范疇

1.2.1 人工智能安全的范疇與特征