1.2.2 人工智能安全的分類
前面我們討論了引發人工智能系統各類安全問題的內在因素。人工智能系統中廣泛應用的機器學習算法的內在屬性,是引起人工智能系統各類安全問題的內在因素。廣義上,人工智能安全問題既包括人工智能系統作為一種人造系統(工程系統或信息系統)的安全性問題,也包括人工智能系統的應用造成的經濟和文化的、法律和倫理的、國家和社會的安全問題,還包括由于人工智能系統具有思維和自我發展能力而可能形成的強大智能,從而造成對人類整體的安全威脅。研究這些安全問題的分類,分析其產生的原因、可能的影響范圍,有助于增強對它們的認識,也有助于對它們進行識別、預防和控制。
人工智能安全問題可劃分為兩大類:一類是人工智能系統自身的安全缺陷,稱為“內生安全”問題;另一類是人工智能系統的應用可能產生的外在的(對其他系統的)安全性影響或效果,稱為“衍生安全”問題。我們稱一個人工智能系統為一個智能體或人工智能行為體(AI Agent,AIA)。
1.2.2.1 人工智能內生安全
本節我們將從人工智能系統和運行環境、模型、算法、數據等環節分別介紹人工智能內生安全問題,這些問題既包括由于智能體自身的脆弱性而形成的安全問題,也包括(在對抗環境中)智能體由于遭受外部攻擊而形成的安全問題。
1.人工智能系統和運行環境安全
1)框架/組件引發的內生安全問題
人工智能框架提供人工智能系統中常用的函數和功能,可以供不同的開發者復用,為人工智能的開發編程提供有力的工具。業界已經推出許多人工智能框架,如TensorFlow、Caffe、PaddlePaddle等。這些開放的人工智能框架引用了第三方庫函數。這些框架的整體和其組件(包括引用的庫函數)并未經過充分的安全評測,存在軟件漏洞甚至后門等安全隱患。CVE(Common Vulnerabilities&Exposures)公共漏洞披露庫中就記錄了多種來源于 TensorFlow、Caffe 等的安全漏洞[10]。2020年,360安全研究院AIVUL團隊報告了TensorFlow中的24個風險級別不同的漏洞[54],這些漏洞可能引起系統錯誤或被攻擊者利用而形成系統安全問題。
2)運行環境引發的內生安全問題
在進行機器學習或智能判斷、決策與控制的系統中,在軟硬件不同的層面,都可能有與安全性相關的脆弱環節,使攻擊者能夠通過脆弱環節對智能系統實施攻擊。云計算架構上有著大量的用戶,可以通過機器學習的方式進行建模訓練和智能推理,而這些用戶又共享了分布式計算體系中的大量軟硬件資源,包括主機、軟件棧、存儲資源、計算框架等。這些資源容易遭受攻擊,從而對于模型訓練和智能推理產生安全風險。在分布式計算平臺的聯邦學習結構中,多個成員在分布式系統上協作訓練和推理,惡意參與者可能會進行模型攻擊而造成系統的安全隱患[17,72]。在多個智能體協作的環境中,系統安全存在特別的問題。例如,多智能體系統的各協作成員之間需要通過通信進行協調訓練或行動,通信系統的不安全性會成為系統的不安全因素。另外,多個智能體的聯合學習和決策需要協同和演化,個體學習和決策在全局上的不協調可能造成系統的非一致性和失誤,形成系統的安全威脅[55]。在多個參與者協作的聯邦學習中,雖然隱私數據可以存放在本地以防止隱私泄露,但還是有可能被攻擊者構造的學習算法竊取其成員及記錄等私有信息[56-58,71,72]。
2.模型安全
機器學習模型的不透明性、脆弱性均是影響人工智能安全的重要因素。不適當的目標函數會導致機器學習系統不能獲得正確的模型,從而導致智能體無法實現設計者所期望的某些功能;建模的不透明性可能導致機器學習模型進行錯誤決策,形成安全問題;建模對動態變化的環境的適應性(魯棒性)也是影響系統安全的原因;訓練好的模型在對外服務的過程中,可能會被對抗性技術手段盜取和惡意利用。
在對抗環境中,攻擊者還可能進行模型竊取攻擊[59]和后門攻擊[50,60]等。模型竊取攻擊是指攻擊者通過竊取神經網絡模型而進行的攻擊。在將機器學習作為一項服務開放給使用者的系統中,攻擊者能夠在不了解模型參數及訓練信息的情況下,通過訪問為機器學習提供服務的系統黑盒子,對模型進行竊取。被竊取的模型進而能夠為攻擊者提供模型和功能參數信息,形成安全隱患。后門攻擊是在模型內插入后門的一種攻擊手段。因為模型自身具有不透明性、不可解釋性,所以被插入的后門不易被找到,但攻擊者可以選擇時機啟動后門。
3.算法安全
如前所述,機器學習的可理解性和可解釋性、魯棒性及目標函數或獎勵函數描述的不完備性等人工智能算法的內在屬性均會導致人工智能系統的安全隱患。另外,算法的復雜性也可以導致人工智能安全隱患。計算的時間復雜度高意味著對于大數據量的機器學習,需要花費巨大的時間和空間代價(占用計算資源和延長執行時間);對于動態變化的情況,則需要計算機經常性地處理變化的信息,學習新的動態模型。這種代價可能導致機器學習系統無法滿足大量數據處理和動態變化的要求,從而生成錯誤的學習結論[18]。
4.數據安全
訓練數據的不完整可能導致機器學習算法難以找到反映實際環境與應用要求的正確模型。訓練中所用數據的規模、質量(準確性、真實性、全面性)、數據分布特性等都會影響訓練結論的準確性,進而影響智能體策略和行為的正確性。訓練模型應對數據分布特征變化的魯棒性,也是影響系統穩定性的重要原因[18]。
訓練數據對于安全的重要作用使得數據成為對抗環境中攻擊與防御的研究熱點。在對抗環境中,攻擊者能夠進行閃避攻擊[51]和藥餌攻擊[50,61]等。閃避攻擊是指通過在正常的訓練樣本中摻入人工難以發現的少量樣本數據,改變樣本數據集,形成對學習系統的攻擊。閃避攻擊可以采用對抗數據生成的方式或利用傳遞性進行黑箱攻擊的手段進行,大多用于推理階段。藥餌攻擊通過向訓練數據集注入虛假信息(藥餌),使訓練系統生成錯誤的模型,從而達到攻擊的目的。藥餌攻擊一般用于訓練階段,破壞訓練系統所生成的模型。
5.對抗環境中隱私數據的竊取
分布式計算環境中不同用戶共享資源的特征,使得攻擊者可能通過共享的資源(如軟件棧、計算框架等),獲取其他用戶的隱私數據并用于模型攻擊;在具有競爭關系的多個用戶參與的計算環境中,如聯邦學習,多個用戶可能需要共同參與模型訓練(共享學習),而參與共享學習的用戶用來進行訓練的數據是他們的私密數據,在這種共享學習環境中,用戶的私密數據可能被其他參與者竊取[17,41,58,62]。
1.2.2.2 人工智能衍生安全
人工智能系統的衍生安全問題,涉及技術和工程系統、國民經濟、社會保障、金融服務、醫學衛生、軍事及國家安全等方面,是人工智能技術開發與使用中需要認真對待的重要課題。
1.人工智能系統存在安全隱患,可能引發安全事件
算法不完善、數據不完整等問題,往往使得人工智能系統存在各種安全缺陷,即使通過權威的安全評估,也難以使這些缺陷徹底表露。如此一來,人工智能系統在投入實際應用時,就很容易由于自身缺陷而導致各種事故,造成人身安全攻擊、財產損毀、環境破壞等問題。當前,擁有高度移動能力和破壞能力的人工智能體造成重大安全事故的情況尤為突出。一個典型的汽車安全事故是,2018年3月,由 Uber 經營的自動駕駛汽車在美國亞利桑那州坦佩市附近撞了一位女子,并致其身亡。研究分析指出,其原因是自動駕駛汽車“看到”了這名女子而并未剎車,也并未生成故障警告信號。短短四天以后,又出現了另一起自動駕駛汽車的安全事故:一輛使用自動駕駛系統的 Tesla Model S 汽車因撞到高速公路的混凝土隔離墻上,而導致駕駛員身亡。如1.1.1節提到的,此前(2016年)就已經出現一輛使用自動駕駛系統的 Tesla Model S 汽車因撞上一輛大卡車而致駕駛員身亡的事故。這說明高速移動體的人工智能安全隱患有可能造成重大安全事故。另外,機器人外科醫生致人死傷事件也頻繁發生,而且機器人安全故障可能導致次生事故。以上都是由人工智能系統本身的故障導致的安全事故,稱為衍生安全事故。國際上有一個對人工智能系統事故進行統計和報道的人工智能事故數據庫(Artificial Intelligence Accident Database,AIID)。AIID 的資料表明,截至2021年1月5日,智能體已衍生了百種千例的安全事故,包括自動駕駛汽車致人死亡、工業機器人致人死傷、醫療事故致人死傷、偽造政治領導人演說、種族歧視、傳播不健康內容等。
2.人工智能給國民經濟和社會治理帶來巨大沖擊
人工智能技術的衍生安全不一定是由人工智能系統本身的故障引發的,即使人工智能系統本身按照設計者的意圖正常工作,也會(也已經)形成諸多安全挑戰,其中包括對國民經濟和社會治理帶來的巨大沖擊。當前,人工智能技術已經應用于醫學儀器與醫學診斷、工業生產過程自動控制、重要設施智能監控、公共交通出行、財政與金融等眾多領域,并且正在協助人們完成一部分原本只能人工完成的工作任務。在國民經濟方面,人工智能通過感知、理解、分析、趨勢預測,協助人們以更加經濟、便利的方式工作,從而減少了對有一定經驗的工作人員的雇用,能夠降低勞動力成本及減少各種相關支出;在社會職業構成上,隨著人工智能技術的進展,各種智能機器和系統開始慢慢取代人工,進行部分煩瑣、重復的生產作業或體力勞動等。但是,在人工智能為人類提供福利的同時,一部分人開始擔心自己的工作將被智能機器取代,導致人們對失業的恐懼。由此帶來的大批失業者,也將導致社會勞動組織和職業結構急劇變動,形成社會的不穩定因素[26-29]。在人類思維等智能活動方面,隨著人工智能技術的發展,智能機器會逐步變得更加“聰明”,人們會更加依賴智能機器,這可能在某種程度上導致部分人的認知能力變差[31,35]。
3.人工智能發展帶來法治、倫理安全問題
人工智能系統的發展和應用不會帶來對法治、倫理的沖擊。人工智能惡意應用(如隱私盜取、欺詐)會造成廣泛的社會安全問題(如網絡和信息系統、金融、公共安全等),需要專門的技術規范、法制和政策。人工智能通過機器學習算法,可以對視頻、圖像進行修改,可以制造虛假新聞,可以進行人身攻擊,擾亂公眾視聽,從而對社會穩定造成威脅[63,64,69]。利用從各種渠道收集的信息,智能系統可以進一步分析出被攻擊者的偏好或者監控被攻擊者的活動,進而對被攻擊者進行威脅、訛詐或行為控制[35]。信息技術的發展使人們的各種活動暴露于各種傳感設備的監控之下,而機器學習技術則可以通過對大數據的學習和分析獲得已有技術難以獲得的信息,使各類社會實體和個人的隱私安全受到極大威脅,隱私保護不但成為機器學習技術的熱點課題,而且成為法律和倫理規范方面的重要挑戰。為此,國務院制定的《新一代人工智能發展規劃》明確提出,將加強對濫用信息、侵害個人隱私、違反道德倫理等行為的處罰。由于人工智能技術使機器具有自主決策、自我演化、自主行為等能力,人工智能倫理問題變得日益突出。如何使人工智能行為體與人類相容、遵循正確的倫理準則和規范,不但成為人工智能技術研究的重要方向,而且成為社會倫理關注的重要議題[21-23,31,35]。
4.人工智能技術發展對國際政治、軍事、國際治理體系等產生潛在沖擊
人工智能技術在對抗環境中的強大能力誘發了人們將人工智能作為攻擊性手段的行為,也激發了人們利用人工智能技術保護己方安全的熱情。人工智能技術被用于網絡攻擊、情報竊取、輿論戰,被用以制造虛假情報,干預對方的政治事務,如抹黑著名政治人物的形象,乃至干涉國家領導人的選舉。人工智能技術也被用于研制精確控制的殺傷性武器,用以攻擊對方政治、軍事要員,或攻擊重要設施。例如,2018年8月,委內瑞拉玻利瓦爾共和國時任總統馬杜羅在閱兵典禮上遭受裝載爆炸物的無人駕駛直升機的襲擊;2019年9月,數架無人機空襲了沙特阿美集團的兩處重要石油工廠,包括位于阿布蓋格的世界上最大的原油凈化工廠。美國、英國、俄羅斯、法國等均在人工智能軍事應用、智能武器和無人系統的研發上給予大量投入,引發人工智能軍備競賽的潛在風險。基于人工智能技術的致命性自主武器的研發給未來世界帶來巨大的安全、倫理等方面的沖擊。2018年7月,在國際人工智能聯盟大會上,來自90多個國家的2400多位人工智能領域的專家、學者,聯合簽訂了《致命性自主武器宣言》,承諾他們不參與致命性自主武器的開發、研制和交易。人工智能技術的發展對國際政治、軍事及國際治理的沖擊引發了各領域相關人士的重大關切[29-31,67,68]。
5.智能體一旦失控將危及人類安全
如果智能體同時擁有行為能力和破壞力、人們無法理解的決策能力、可進化成自主系統的進化能力,則不能排除其擺脫人類掌控并威脅人類安全的風險。而智能體失控所帶來的衍生安全問題,無疑將成為人們在開發人工智能系統的過程中最為關注的重大課題。于是人們開始認真地思索,人工智能技術的發展是否會使智能機器超越人類的思維,從而引發智能爆炸。2017年4月,在全球移動互聯網大會上,霍金表示:“簡要來講,我覺得強大的人工智能的崛起,要么是人類歷史上最佳的事,要么是最糟的……未來,人工智能可以發展出自我意志,一種與我們沖突的意志……人工智能也有可能是人類文明史的終結,除非我們懂得怎樣避免風險。”阿西莫夫給出了機器人不能傷害人類的3個準則。在這個基礎上,在阿西洛馬舉行的Beneficial AI大會上,機器人和人工智能領域的專家形成了《阿西洛馬人工智能原則》[65,66],希望以此保障人工智能的發展不會危害人類。著名的人工智能專家Stuart Russell提出了創造更安全的人工智能的3條原則(3Principles for Creating Safer AI)。如何保證人工智能的發展為人們帶來的是福祉而不是危害,達到人工智能與人類的和諧共處,是人工智能發展中必須解決的一個挑戰性問題[31,35,70]。
隨著網絡空間中的活動(經濟、金融、教育、醫療服務、文化娛樂等領域)日益增多,安全問題日益突出;抵御網絡空間的威脅,增強網絡空間的安全性,是網絡空間治理的重大需求。人工智能技術是為網絡空間安全治理賦能的重要技術手段,基于人工智能技術的網絡空間安全引發高度的重視和大量的社會投入[67]。機器學習技術被廣泛地用于網絡風險量化與分析、網絡入侵檢測和預防、網絡威脅發現和滲透測試、用戶行為分析、網絡安全自動化等場景中。在對抗環境中,采用人工智能技術抵御人工智能技術的攻擊,是提高各類應用系統安全性的重要技術路線。人工智能技術作為一種“雙刃武器”,在對抗環境中,攻擊方可以采用人工智能技術,基于對方的薄弱環節實施某些攻擊,而同時利用人工智能技術可以更有效地分析攻擊的技術特征,并采取識別、防御和對抗手段[2,30,31,40,67]。在研究人工智能安全問題的同時,我們同樣需要注重人工智能技術本身所具有的為安全賦能的功能,加強為安全賦能的人工智能技術的研究和發展。