- 人工智能安全
- 陳左寧主編
- 3028字
- 2024-05-24 18:26:26
1.2 人工智能安全的范疇
1.2.1 人工智能安全的范疇與特征
近十幾年來,深度學習技術的突破性發展使人工智能技術得到了日益深入且廣泛的運用,并獲得了舉世矚目的成果。與此同時,人工智能系統的研發與使用過程中暴露出了大量的安全性問題,引起了人們從不同角度對人工智能安全問題廣泛而深切的關注。
從通常的工程系統的觀點考慮,人工智能系統作為一類特別的工程系統,同樣具備其他工程系統可能存在的安全問題。例如,作為一個計算機軟件或硬件的人工智能系統,它會具有計算機軟硬件可能存在的安全問題;作為無人駕駛系統、機器人或其他自動控制系統中的人工智能系統,它可能存在材料性質、機械性能、電器性能、環境適應性等方面的安全性問題。但是,人工智能系統或“智能體”與其他工程系統的根本差別就是其具備“智能”,可以“思考”,可以通過“學習”來掌握知識、獲得技能,也可以進行自主性判斷、實施自主活動。區分于其他工程系統具有普適性的安全問題,本書所討論的人工智能安全問題,主要聚焦人工智能系統因為具備學習、思考、判斷、自主決策和行動等智能行為而造成的安全風險,既包含人工智能系統自身因為設計、制造、使用或遭受攻擊而造成的安全風險,又包含人工智能技術的開發與使用所產生的對其他系統的安全威脅與潛在風險。人工智能安全問題引起了人們從技術[2,10,16-20,31]、法律和倫理[2,21-24,31]、經濟和社會發展[25-29,68]、政治和國家安全[2,29-31]等不同角度的廣泛關注。
從技術角度考慮,人工智能系統可以通過學習獲得“知識”或者“技能”,并且可以自主做出決策、執行行動,這既是人工智能系統相對于其他技術系統的優勢,又是其區別于其他技術而產生特別的安全問題或隱患的原因。下面我們主要從人工智能技術的幾個屬性,以及對人工智能系統的對抗性攻擊等方面分析人工智能安全區別于其他技術安全問題的特征。這幾個屬性是機器學習算法本身的內在屬性,是形成人工智能系統本身安全隱患的關鍵因素,也是對抗環境中攻擊者設計攻擊策略的理論依據和進行攻擊的薄弱環節。
1.機器學習的可理解性和可解釋性問題
機器學習技術是人工智能系統廣泛采用的核心技術,而機器學習中龐大的網絡結構和復雜的學習過程,使人們(即使是領域的專業人員)難以理解其從大量的數據中逐步獲得的結論,以及基于其獲得的結論而做出決策的內在邏輯,難以用使用者可以理解的方式對其學習和推理過程做出解釋,也難以對其推理過程中一個步驟所出現的問題進行追溯。這構成了機器學習技術的可理解性和可解釋性問題。人們對于可理解性、可解釋性給出了多種定義,也發明了多種技術以增強機器學習模型和算法的可理解性和可解釋性[17,32-34,75]。對機器學習輸出的判斷或決策的不可理解、不可解釋意味著潛在的安全風險,尤其是對于關鍵問題的決策、關鍵設備或過程的控制、醫療診斷等安全攸關的應用領域,對于收集的數據所反映的規律認識錯誤(如分類錯誤)、決策錯誤甚至產生錯誤的自主行為,均可能造成嚴重的后果。因此,機器學習的可理解性和可解釋性是其區別于其他技術的安全特性。
2.機器學習的魯棒性問題
機器學習的魯棒性是影響人工智能安全問題的一個重要因素。機器學習的魯棒性要求,即使新的數據在學習數據的基礎上有一定的變化,學習所得的結果也應具有適用性。
魯棒性不強的系統,其模型的泛化能力不強;當應用環境中數據的分布特性與訓練數據的分布特性存在偏差時,就可能做出意想不到的判斷或決策,蘊含安全風險。其風險性在于,在應用環境中,機器所給出的判斷(如一個人是否有某種疾病、一個工業過程是否需要進行某種調整、一輛自動駕駛的汽車是否需要改變路線或速度等)或決策(如給出醫療方案、調整工業過程的控制參數或配料、給出停車或轉彎的指令等)是根據訓練數據所學到的知識做出的,機器對此在邏輯上具有充分的信心和“理由”,難以引發懷疑和進一步的驗證,從而可能造成安全事故[35-37,74]。同樣地,即使有安全監測系統,如果實際應用的數據分布與訓練數據分布有較大差距,而安全監測系統是在特定的數據基礎上訓練得出的,則也難以發現潛在的風險。雖然人們提出了一些方法來增強機器學習的魯棒性,例如,利用多種分布特性不同的數據進行訓練,希望訓練出來的可以適應多種數據分布特性的模型,也能適應具有新的數據分布特性的環境,但能使得訓練出來的模型對數據分布的差別有多強大的適應性還是問題。另外,在一般的不受故意干擾或攻擊的情況下,系統的魯棒性可能成為系統安全的重要影響因素,在對抗環境中,如果模型和算法的魯棒性不強,就易被對手利用而進行有針對性的攻擊。
3.目標函數或獎勵函數描述的不完備性問題
在機器學習中,往往把學習問題描述為對一個目標函數的優化,而算法的設計者對目標函數的描述和具體的實現難以真正體現其想要達到的目標。原因是設計者對優化目標的描述有誤或者不完善,從而使算法在對所給出的目標函數進行優化時,產生設計者預想不到的不良后果。在設計者對所優化的目標函數給出描述的時候,難以全面考慮各種復雜的影響因素;另外,隨著時間的推移或應用環境的變更,可能產生一些新的因素,影響設計者真正意圖的實現,但這些因素在目標函數的描述中沒有得到反映。這種對目標或意圖的錯誤或不完善的描述稱為目標函數描述的不完備性,其是造成隱含的安全風險的重要原因之一[18]。另外,在強化學習算法的設計中,設計者通常以獎勵函數的方式鼓勵和引導學習算法達到設計者所期望的目的。然而,獎勵函數的設計和描述中同樣存在不完備性(錯誤或不完善),從而可能被學習算法在優化過程中“搭便車”,通過曲解獎勵的意圖而采取一些行動以獲得最大化的獎勵,字面上符合獎勵函數形式上的規則,但事實上卻違背了設計者的意圖。這種情況通常稱為“Reward Hacking”(黑客獎勵)。或者,學習算法也可能以一種“取巧”的方式跨過實現設計者真實意圖的必要行動,直接獲取最大獎勵而不通過行動實現設計者的意圖,這稱為Wireheading[35-37]。
4.有針對性的對抗攻擊
如果說前面介紹的問題是人工智能模型和算法中存在的安全薄弱環節,那么在對抗性的應用環境中,對手針對人工智能模型和算法的薄弱環節設計各種攻擊方法的行為,成為人工智能安全的重要隱患[45]。
如前所述,機器學習的魯棒性問題容易成為被對手利用而進行攻擊的薄弱環節。著名的對抗樣本攻擊就是利用魯棒性不強進行的攻擊。與前文所述的安全風險不同的是,前文所述的情況只是應用環境的數據分布與訓練時的數據分布有差距,其原因可能是環境的變化、過程的變化等,并不是人為因素;在對抗樣本攻擊中,對于一定的模型,攻擊者可以計算出一些有害數據,僅對數據做出微小的(從而難以被人發現的)擾動,就能使系統做出錯誤的判斷或決策。Szegedy 等人2014年的研究[38]發現,神經網絡存在對抗樣本,這些對抗樣本可以通過對測試的圖像施以很小的、難以被人覺察的擾動,使網絡預測錯誤最大化而得到。文獻[39]提出了一種衡量對抗魯棒性的方法,對于不同分類器的對抗魯棒性,可以量化地進行計算和比較,并且用對抗性示例對訓練數據進行擴展,從而提升應對對抗性攻擊的能力。人們已經提出了大量的對抗樣本攻擊與防御的方法,相關研究[40-42]表明,存在普遍適用的對抗性擾動,可使深度神經網絡做出錯誤的判斷。這種對抗性擾動對不同的數據和網絡均有適用性。另外,人們提出了大量能夠提高機器學習魯棒性的技術[43],如對抗訓練[44-46]、防御蒸餾[47,73]、模型正則化[48]等。
除了對抗樣本攻擊,針對機器學習的模型、算法、數據、運行等不同環節,還有多種攻擊方法,如數據投毒、模型竊取、隱私推斷等,都是人工智能系統的重要安全威脅[31,40,43,49-53]。