- Greenplum:從大數據戰略到實現
- 馮雷
- 12362字
- 2019-10-10 18:57:08
1.5 AI和人
我們在2016年編寫和出版《Cloud Foundry:從數字化戰略到實現》時,預測了P層云在降低數字化門檻后,數字世界將呈現爆發式的發展。當前,ABC的發展以及各行各業對ABC的擁抱印證了我們的預測,ABC中的人工智能應用在中國又一次火爆。無獨有偶,美國電視劇《西部世界》第二季的第一集一經播出就引起熱議。一時間,人和人工智能這個話題又重新被辯論。為此,在本書中,我們有必要對此進行深入探討,希望為讀者打開一個認識這個世界的新窗口。另外,作為一個頂級研究機構,這些考量也是必須的,因為我們要確保自己的研究工作能夠創造一個更好的未來而非相反。
1.5.1 經驗與邏輯
在討論人和人工智能的關系及其差別之前,我們先看看人類知識的構成。作者并沒有哲學專業背景,這里介紹的概念不一定能和哲學概念一一對應,具有哲學專業背景的讀者可以建立一個對照轉換。
作者認為,人的知識由經驗和邏輯兩個層面構成。第一類知識是邏輯知識,可以通過分析得出新知識。下面是典型的邏輯知識:
1)所有人都會死,蘇格拉底是人,所以蘇格拉底會死。
2)根據勾股定理,直角三角形的三邊關系滿足x2+ y2+=z2(其中x和y是兩條直角邊,z是斜邊)。如果三角形的兩條直角邊長度分別是3和4,那么根據勾股定理可以得到z的長度是5。
另一類知識就是經驗知識。經驗通常是沒有經過邏輯推理或者無法通過邏輯推理而根據過去的經驗建立起來的知識。下面是兩個過去的經驗知識:
1)“地球是宇宙的中心”在哥白尼之前一直是人類社會的基本經驗知識。
2)“地球是平的”在哥倫布之前一直是大部分人的經驗知識。
3)太陽從東邊升起,到今天為止還是大部分人的經驗知識。
要觀察人的知識體系的建立過程,可以觀察小孩子的學習過程。如果把一個算盤豎起來給小孩子玩,小孩子可能會把珠子往上撥,然后珠子會掉下去。但是孩子會重復,因為他們不知道珠子總是會往下掉。為什么大人不再重復這個動作?因為學過物理的大人從邏輯上會知道珠子會因重力的作用往下掉,沒有學過物理的人根據過去的經驗也會知道這樣做珠子會往下掉,所以不會做無用功。蘋果為何總是從樹上掉下來?在牛頓發明萬有引力定律之前,這對于所有人來說都是經驗知識。在萬有引力定律發明以后,對于知曉力學的人則是邏輯知識,對于不知曉力學的人依然是經驗知識。
學過物理的讀者先不要得意,因為經驗和邏輯的關系不是絕對的,而是相對的。邏輯知識到一定層次不能再往下推理的時候,人又會依賴經驗(有時候甚至是直覺或情感)。有時候,人懶得推理,也會停留在經驗知識層面上。讀者也不要笑話“懶得推理”這個行為,因為人類沉淀下來的經驗知識實在太多,如果要試圖邏輯化所有的經驗知識,在人有限的生命里是很難完成的。這就是極端聰明的人在無法邏輯化他們想邏輯化的知識的時候,他們的幽默感會訴諸一些最基本的經驗(以表示無奈)。后面在介紹機器(計算機或者人工智能)的時候,我們會看到很多不可計算數,這是有限的人腦和機器在無極限的知識體系面前表現出的一種無奈。
為了解釋邏輯和經驗的相對性,我們再來回顧一下萬有引力定律的建立過程。萬有引力定律和牛頓三定律主要是用來解釋開普勒觀察到的天體運動規律(圖1-8所示是用古典力學解釋的開普勒觀察到的太陽系各大行星的天體運動)。萬有引力定律和牛頓三定律本身是基于一系列假設的一個數學模型,有效擬合了開普勒觀察到的天體運動。這種處理方法和神經網絡模型一樣,都是把標注過的數據集合輸入模型,調整模型的參數以擬合這些數據集。牛頓三定律和萬有引力定律的參數經過擬合以后,物體間的作用力變量(F)和距離變量(r)系數關系是-2(也就是平方成反比)。所有學習過物理的人對這個結果不會有太多質疑,但是哲學家們則需要經過邏輯化才能認可這個結果。所以他們會問,為何系數是-2,而不是-1.999999…9(中間間隔足夠多的9)或者-2.00000…01(中間間隔足夠多的0)?這樣的系數一樣能夠擬合所有可以觀察到的數據。當然,牛頓選擇-2而不是那兩個長數字主要是為了處理方便,或者他相信簡單的總是好的(作者沒有機會用混有吳語口音的美式英語和牛頓的皇家口音英語隔著時空對話,但“簡單是好”是大部分做模型的人的一個情感選擇而不是邏輯選擇)。當然,牛頓沒有心情和這些哲學家費一番口舌,他的回答有點類似于“你們拿去用,一定屢試不爽,有問題再回來找我。”
事實上,哲學家們對于牛頓萬有引力定律在內的古典力學體系的質疑是有一定道理的,因為后來古典力學在描述微觀世界的時候不再成立(這時就需要量子力學了)。
如果把古典力學運用到原子核和它的電子,我們無法解釋為何電子不掉進原子核,這就意味著古典力學的模型無法對某些數據進行擬合。經過不斷的探索,物理學家們建立了量子力學。和古典物理不同,量子力學的模型有很大一部分建立在概率基礎上。例如,在量子力學中,人們無法預測電子在原子核外的固定位置,只能預測它出現在某個位置的概率。圖1-9描述了氫原子的電子的波動方程。軌道的顏色深淺代表了電子出現的概率。
綜合前面的討論,萬有引力實際上是根據人類在更高層次和更廣范圍的觀察得到的經驗總結。蘋果下落對于沒有學過物理的人而言是經驗知識,而對于學習過物理的人而言,他們的知識雖然在邏輯上往上走了一層,但最終還是要依賴于一個經驗數學模型(這個模型的參數不是通過邏輯推理出來的,而是根據過去數據匹配出來的一個經驗值?,F在人工智能領域的模型正是這種情況)。
作者具有理學和經濟兩個學科背景,所以對文科和理科的交叉、融合深有體會,因為當我們的認知達到一定邊界的時候所做的模型和假設不得不訴諸于情感(或者直覺),就像牛頓為了簡潔選擇-2作為模型里面距離的系數,歐幾里得的平行公理訴諸于世界是方方正正的情感(后面會詳細討論)。當然,文藝青年也不要總是陷入情感中,因為大部分的感性認知遠沒有到人類認知的邊界,它們很容易邏輯化而上升到另外一個高度的感性認知。(這可能也是一些知名高校會要求理科生必須選修一定數量的文科課程才能畢業,文科生也必須要選修一定數量的理科課程才能畢業的原因。大家熟悉的太極拳和五禽戲也蘊含著這樣的道理,前者是一套陰陽平衡邏輯,后者是一套樸素的希望像猛禽一樣強健的情感表達。)實際上,作者想說的是,讀者可以審視一下自己的知識系統,邏輯和內化它們是非常耗神的,所以大部分知識還處于非常樸素的經驗層面。
雖然文/理科學生受到的邏輯和經驗的訓練可能不太一樣,但是AI和人比起來如何呢?從上一節對機器學習的討論中看到,因為強大的計算能力,機器學習看上去要勝人一籌。例如,在判斷貸款申請的風險系數時,AI能夠把所有人的所有貸款歷史讀一遍來調校風險控制模型的參數,從而利用這些經驗參數來判斷當前一筆申請的風險。任何一個有豐富經驗的貸款專員也只能根據自己過去看到過的壞賬貸款的模糊圖景來判斷當前交易的風險。
如果說人算不過AI,那么人在邏輯推理方面是否比AI高出一等呢?我們需要在一個更為廣闊的數學和計算機的知識體系框架下討論這個問題。
1.5.2 公理化的邏輯系統
上一節談到了人類的經驗知識是分層次的。我們總結一下蘋果落地的兩個層次。第一個層次,因為我們看到蘋果總是往下落地,沒有往上飛過,所以我們認為蘋果是落地的;第二個層次,我們建立牛頓古典力學模型,因為物體受力要朝受力方向加速前進,所以蘋果脫離樹枝以后,受到地心引力作用要朝地表方向前進。在這個層面,古典力學的很多模型的選擇(例如,萬有引力和距離平方成反比;再例如,不同參考系下,時間流逝是一樣的)也是基于經驗的。人類把知識一層層往上邏輯化到認知邊界,依賴幾個感性的假設便建立了一個認知體系。
很多偉大的科學家則從相反的角度來考慮:能否依賴幾個基本的公理假設(感性選擇)來建立整套認知體系?從歐幾里得到希爾伯特,哲學、數學和物理學科的先賢們分別對幾何知識和代數知識進行邏輯化。在這個過程中,人類開始構想,能否讓機器從幾個公理和規則出發,通過計算推演列出所有人類知識?這一構想直接導致了以圖靈機為代表的機器智能的產生。圖靈在他的經典論文《論可計算數》中構造了一個機器(后人稱為圖靈機)來模仿人類數學工作者。學術界普遍認為物理計算機的發明是受到圖靈機的啟發。馮·諾依曼等人在發明物理計算機后,給原本清貧的數學工作人員創造了高薪的編程崗位。我們在前面談到,今天的AI技術建立在計算機之上。從理論上講,AI學科只是圖靈機系統的一個模型化算法子集。在這個子集里面討論AI和人的關系必然是不完整的,所以在討論AI和人的關系時,我們需要再往上追溯到公理化數學的過程。正是在這個過程中,邱奇、圖靈和哥德爾等人對于機器和人的探討遠比今天大眾對這個話題的討論深入。
第一個建立公理化的邏輯系統是歐幾里得的《幾何原本》。如果追溯到數學的源頭,歐幾里得是個不得不提的人。他的著作《幾何原本》對于人類影響非常深刻,據說《幾何原本》在西方的發行量僅次于《圣經》。歐幾里得的整個幾何體系建立在如下5條公理之上:
1)過相異兩點,能作且只能作一直線(直線公理)。
2)線段(有限直線)可以任意地延長。
3)以任一點為圓心、任意長為半徑,可作一個圓(圓公理)。
4)凡是直角都相等(角公理)。
5)兩直線被第三條直線所截,如果同側兩內角和小于兩個直角,則兩直線會在該側相交(平行公理)。
其中,第五條公理可以用另一種方式表述為:在一平面內,過直線外一點,可作且只可作一條直線與此直線平行。
歐幾里得平面幾何(歐氏幾何)的所有定理可以最終追溯到這五個公理,所以這五個公理構成了歐氏幾何的邊界。作者在開始學習這些公理的時候也難以理解邊界這個問題,后來也就放棄追問歐幾里得為何如此定義這五個公理。后來我才知道,很多學霸都不喜歡歐幾里得的看上去像“主觀臆斷”定義出來的第五公理。其中,俄羅斯人羅巴切夫斯基(后面簡稱羅氏)認為第五公理應該可以通過前面四個公理推導出來。為了推導這個公理,羅氏使用了反證法。在反證法中的第一步,他假設“過直線外一點有兩條平行線”,然后試圖通過這個反證假設來結合前面4條公理推導出邏輯矛盾。如果推導出矛盾,那么假設錯誤。但是,羅氏基于他的假設并沒有推導出任何矛盾,反而推導出一個和歐氏幾何完全平行的幾何體系—羅氏幾何體系,也就是雙曲幾何。為幫助讀者直觀地理解羅氏雙曲幾何,圖1-10給出了一個圖形,這是一個三角形位于一個雙曲拋物面上,另外右下方有兩條在歐氏幾何中應平行的分流線。
羅氏幾何體系完全不同于歐式幾何,開創了非歐幾何的先河。一方面,這意味著歐幾里得的選擇并不是隨意的,他必須選擇第五公理才能建立起歐氏幾何體系。另一方面,這也意味著羅氏可能惹上了和哥白尼一樣的大麻煩。羅氏理論標志著兩個幾何世界的出現:一個是歐氏幾何描述的方方正正的世界,另外一個是羅氏幾何描述的彎彎曲曲的世界。由于顛覆了當時大眾廣為認知的體系,羅氏的理論因此遭到很多非議,他個人也遭受了很多不公正待遇。這時,羅氏向另外一位學霸、有“數學王子”之稱的高斯求助,希望高斯能夠公開支持他的理論。高斯雖然提供了很多力所能及的幫助,但是最終沒有公開站出來支持多個幾何體系的存在。盡管高斯自己也感覺到第五公理的選擇不是唯一的,但是他深知公眾面對具有顛覆性的新事物時的恐懼。(這里插一句,其實某種程度上今天對于AI的恐懼也只是歷史重現。)
羅氏的晚年在不幸中度過,他的理論一直沒有公開得到支持。直到1868年,意大利數學家貝爾特拉米發表了一篇著名論文《非歐幾何解釋的嘗試》,證明非歐幾何可以在歐幾里得空間的曲面(例如擬球曲,pseudosphere)上實現。也就是說,非歐幾何命題可以“翻譯”成相應的歐氏幾何命題,如果歐氏幾何沒有矛盾,非歐幾何也自然沒有矛盾。直到這時,長期無人問津的非歐幾何才開始獲得學術界的普遍關注并被深入研究,羅巴切夫斯基的獨創性研究也由此得到學術界的高度評價和一致贊美,他本人則被后人贊譽為“幾何學中的哥白尼”。
自貝爾特拉米解除了非歐幾何的束縛以后,來自德國哥廷根大學的高斯和黎曼對非歐幾何進行了大刀闊斧的拓展。黎曼對于歐式幾何的第五公理做了另外一個相反的假定:過直線外一點,不能做直線和已知直線不相交。由此產生了非歐幾何的另一個分支—橢圓幾何。關于高斯和黎曼在非歐幾何領域的突破性進展,可以參考陳省身先生1987年發表的演講《什么是幾何學》。
總結來說,通過對歐幾里得第五公理做出的不同假設,最終衍生出三種邏輯自洽的幾何學:羅氏幾何、歐式幾何和黎曼幾何。在三種幾何中,垂直于同一線段的兩條直線如圖1-11所示。
到這里,讀者可能會問:計算機(人工智能)和幾何有何關系?因為非歐幾何的公理化體系的討論,激發了自然數算數體系公理化的類似討論,從而推動圖靈機定義的出現。這里我們還要介紹哥廷根大學的另外一位學霸—希爾伯特。在高斯和黎曼之后,非歐幾何在哥廷根大學盛行,影響了不少數學家。哥廷根大學迎來了希爾伯特,希爾伯特提出了公理化幾何體系并出版了《幾何基礎》。整個體系從一組公理出發,層層推導。希爾伯特的公理化方式也標志著數學方式開始轉移到現代的公理系統。公理系統可以擺脫現實世界,就像非歐幾何的不同第五公理可以創造出不同于生活直覺的幾何世界。如果說幾何學是探討幾何元素的關系,那么點、直線、平面等可以用桌子、椅子等物體所取代。更為重要的是,在希爾伯特的概念里面,一個從公理系統構造出來的完整的數學系統應該具有以下特性
:
?獨立性:系統里的各個公理相互獨立,任何一個公理都不能從其他公理推導出來。
例如歐幾里得的第五公理并不能從其他四個公理推導出來。
?一致性:從公理出發,不能推導出兩個互相矛盾的定理。假設B是A的反命題,則不能從公理系統中同時推導出A和B成立。
?完備性:從公理出發,可以推導出所有真命題。假設B和A是反命題,但是從公理系統不能證明A或者B,那么系統是不完備的。因為A和它的反命題都可能是正確的,不完備的系統像知識世界存在黑洞一樣,讓人不安。
?可判定性:即給定一個數學命題,是否可以從公理出發,通過有限計算步驟來判定這個命題的可證明性。這個可以列舉的計算步驟就是現在所說的算法(Algorithm)。
完備性和可判定性可能會讓人混淆。如果一個系統是不完備的,那么存在命題不可被證明??膳袛嘈詣t探討是否能找到一個步驟,計算出一個命題能否被證明。
希爾伯特的偉大之處在于使公理化系統的思考方法影響到代數體系。在1900年8月舉行的國際數學家大會上,希爾伯特將可判定性問題列為當時數學面臨的23個問題中的第10位。這個問題被描述為:“是否可以推導出一個過程(算法),通過有限步驟判定不定方程(也叫丟番圖方程)是否存在有整數解的命題?”希爾伯特的座右銘是“我們必須知道,我們必將知道?!币虼?,在他眼里,無論不定方程是否有解,都應該存在一個判定過程來判定它是否可以被證明。例如,費馬方程xn+ yn=zn作為一種特定形式的不定方程,在數學家們試圖證明命題“費馬方程在自然數n> 2的情況下不存在整數解”之前,希望有個判定過程(算法)來判定它是否可以被證明。
事實上,費馬定理的證明花費了數學家300年的努力,幸運的是它是可證明的。從費馬定理證明史這個例子可以看到,代數命題通用判定過程(算法)的意義重大。要討論通用的可判定性,首先需要清晰地定義什么是算法。為此,邱奇和圖靈分別提出了不同構造和定義。圖靈構造了圖靈機,算法就定義在圖靈機的操作之上。下一節將討論圖靈構造圖靈機的過程,但是很遺憾,圖靈也證明了基于自然數算術的公理化體系的通用判斷過程并不存在。
1.5.3 圖靈機和可計算數
圖靈的論文《可計算數及其在可判定性問題上的應用》(《On Computable Numbers, with an Application to the Entscheidungsproblem》)發表于1936年,在這篇論文中,他構造了一個圖靈機來計算可計算數,證明希爾伯特提出的通用可判定性方法不存在。
圖靈機的具體構造可以參考圖靈的論文,這篇論文閱讀起來非?;逎?。但如果要理解他的構思或者靈感,那么閱讀他的論文是最直接的方式。圖靈不是我們同時代的人,要推測圖靈的構造靈感非常困難,但是讀者可以像作者這樣通過閱讀到的文字和聽到的故事去隔空對話這位偉人,推敲他的靈感來源。電影《模仿游戲》詳細地介紹了他的生平,據歷史學家估計,圖靈因為破解德國的恩尼格瑪密碼機(Enigma Machine)而拯救了1400萬英國人。在破解恩尼格瑪密碼機的時候,圖靈沉浸在密碼學之中。密碼學就是將一組數字按照某種規則讓機器變成另外一組數字。接收方可以根據一個反向規則讓機器將其變成原文。舉個簡單的例子,10多年前為了讓我的信件不被家長偷看,我曾構造過一個簡單的加密方法:把所有的英文字符換成英文字符表的下一個字符,接收者把每個英文字符換成字符表的前一個字符即可以重構原文。舉一個更加復雜的例子,計算機科學一般用兩位數字01,02, …26來表示英文字母A, B, …Z,用00表示空格。這樣,一個關于聚會的時間和地點的文字消息就可以轉化為一串數字。接收者收到這串數字后,把每兩位數字轉換成對應的字母,就可以還原出文字消息了。把一個句子通過一個機器邏輯映射成一個數字非常有意思,例如ICU可以映射成090321。圖靈在破解恩尼格瑪密碼機的時候可能深諳其中的樂趣。
《Cloud Foundry:從數字化戰略到實現》一書的第1章曾回顧香農信息論為代表的數字世界的崛起。我們談到了馮·諾伊曼為何建議香農在他的信息論中采用物理學中熵的概念,但是我們并沒有仔細討論后面的哲學,這里可以再繼續深入討論一下。物理學家和數學家都隱隱約約感覺到物質和能量背后存在的信息(數字)世界,那么我們能否用數字世界來描述物理世界?香農和奈奎斯特獨創了信息論。在他們兩位開天辟地的工作成果下,我們可以通過一個機器把圖像、音頻編碼成一組數字。于是,我們今天可以用二進制編輯器打開任何一臺計算機上的圖片或者音頻,其實它們只是一串0和1編碼。這些0和1的字符串對應了一個數的二進制表示,所以它還是一個數。圖靈在從事密碼破譯工作的時候,有機會去美國的貝爾實驗室協調英美兩國的合作。他在貝爾實驗室遇到了兩位大師(可見人生結交高質量的朋友多么重要)。作者猜測圖靈從兩位大師制作的編解碼機器中大受啟發,將他對世界萬物都是數的信念往前推進了一步:如果說人的五官能夠感受到的世間萬物都可以用機器轉換成數字來表示,那么人的思考過程是否也能用機器轉換成數字來表示?為幫助讀者理解圖靈的這個構思,可以用iPhone手機上的Siri語音助手來類比。Siri是一個能思考和分析的程序,如果你用一個二進制編輯器打開它,它也是一個用二進制0和1表示的數。但是Siri對應成iPhone這個機器(本質上就是一個圖靈機)上的一個數字后,在機器上的運作就能起到人工智能的效果。通過這個例子,讀者也可以看到數字化是人類前進的一個新方向,相比人類在工程和物理領域的幾千年的研究,數字世界的探討從圖靈等人在20世紀40年代開辟這個話題算起,到今天才經歷了幾十年。
圖靈的論文詳細介紹了圖靈機的構造和定義在圖靈機上的可計算數。如果讀者覺得論文太難懂,可以參考《圖靈的秘密》一書,該書做了非常詳細的注解。圖靈用極其簡單的抽象機器來模擬一個數學工作者。一個數學工作者腦子里面有個思考狀態(上下文),他在紙上掃描到下一個字符的時候腦子里會產生一個狀態,然后可能在紙上移動位置寫下一個符號,不斷重復這個過程。圖靈機的構造就是這么簡單,圖1-12就是圖靈機的一個大致描述。
圖靈機在無限長的紙帶上移動,每次移動讀取一個符號(數字用二進制表示),然后圖靈機的內部狀態進行改變,并決定圖靈機下一個移動的位置。圖靈在論文中給出的一個例子是打印一個分數1/3。這個圖靈機很簡單:打印1個0往右移動一格,然后再往后移動一格,留出一個空格做可能的符號標記,然后再打印一個1并往右移動一格,之后,圖靈機再往右移動一格從而留出一個空格作為可能的符號標記。之后以此類推。以上過程可以用表1-1所示的狀態切換表來表示。
表1-1 可計數1/3的圖靈機表示

寫過程序的讀者會發現,這有非常經典的匯編程序的味道。機器打印出來的紙帶如圖1-13所示(早期的軟件工程師應該有使用穿孔紙帶的經歷)。

圖1-13 可計算數1/3的圖靈機紙帶
把這個紙帶標記為小數點后的二進制數字(0.010101…),讀者可以用級數求和,其結果等價于1/3。讀者可能有兩個疑問:1)二進制表示對數字計算機的產生有極大幫助,那么圖靈是如何突發奇想地想到用二進制來表示圖靈機?2)圖靈為何只討論0到1之間的實數?這兩個問題的確非常重要,因為這涉及我們對人和機器之間的互補和競爭關系的討論:機器到底是否會取代人?我們在下一節中再展開討論,這里暫時聚焦在圖靈機上。
這個圖靈機只做一件事情,就是表示一個可計算數1/3。為了達到舉一反三的目的,我們可以把表1-1中的b和k的順序更換一下,從而創造另外一個計算2/3的圖靈機。表格如表1-2所示。
表1-2 可計數2/3的圖靈機表示

它的紙帶如圖1-14所示,其中1和0的順序與數1/3紙帶中1和0的順序正好相反。

圖1-14 可計算數2/3的圖靈機紙帶
我們現在了解了圖靈機的定義和運行機制,能夠用圖靈機計算的數叫作可計算數。目前,得到了兩個表格表示的不同圖靈機,分別用來計算可計算數1/3和2/3。寫過程序的人可以把這兩個表當作兩個程序,以方便理解后面的內容。如果圖靈只是用假想的機器來編碼可計算數,那與香農和奈奎斯特的成果沒有任何可比性,因為兩位大師已經用機器把圖像、聲音等信號用機器編碼成數字。但是圖靈往前走了一步,他不僅把數字編碼成特定的圖靈機,還把特定的圖靈機編碼成通用的圖靈機。讀者可簡單地理解為圖靈創造了一個通用的機器,在這個機器里面,上面的兩個圖靈機(可以簡單理解成上面的表1-1和表1-2)也可以編碼成兩個可計算數(程序),這意味著(理論上)通用計算機的誕生。對于數學領域的人而言,世界上已經存在計算機了。把表1-1表示的計算1/3的程序和表1-2表示的計算2/3的程序輸入到這個通用計算機,就會輸出對應的紙帶:圖1-13和圖1-14。香農和奈奎斯特的編解碼機器也可以在這臺通用圖靈機上運行。用今天的事物來類比,就是把微信程序、地圖程序、Siri程序輸入到iPhone這個通用計算機上執行。普遍被認為具有人工智能的Siri,從這個意義上說只是圖靈機上的一個可計算數而已。對圖靈的這個通用計算機的構造有興趣的讀者可以閱讀他的論文或者有注解的《圖靈的秘密》一書。
提出通用計算機以后,圖靈就開始為他假想出來的計算機編寫程序。圖靈當然也關心如何在物理世界創造出一臺物理計算機,但是這需要獲得大量物理世界的資源、聚集團隊和持續執行才能實現。最終,馮·諾依曼實現了這個目標,但作者不認為第一臺可存儲程序計算機是馮·諾依曼一個人創造的,而應該是他和他的團隊一起創造出來的。
數字是數,信號是數,程序也是數,世界萬物都是數。自從第一臺假想計算機和第一臺物理計算機誕生以后,再加上香農和奈奎斯特把物理世界的信號編碼成數字,數字技術開始蓬勃發展,進入了《Cloud Foundry:從數字化戰略到實現》一書所談到的大型機、PC機和云計算機時代。一批數學、物理工作者后來轉變成為能編寫程序的軟件開發人員。從計算機發明到現在短短六七十年,開發人員編寫出各種各樣的程序,不少程序帶有人工智能或機器學習的數學模型,涉及虛擬現實、無人駕駛、人臉識別、語音助理等領域。由于程序功能越來越強大,人們開始擔心:“人工智能程序會不會全面取代人類?”
1.5.4 認知邊界上的考量
人工智能是否會取代人類這個問題,實際上涉及對于認知的無窮邊界的考量:圖靈機能表達的帶有人工智能模型的可計算數(程序)無窮大,人的思考過程也無窮大,哪個無窮大更大?面對這個問題,大部分人會困惑“兩個無窮大的數還能區分大???”所以,這里有必要重新理解一下數。數有兩個讓人最頭疼的問題:無窮問題和無理問題。據說知名的數學家、集合論的創始人康托爾(Cantor)就因為沉溺于數的無窮問題而得了躁狂型抑郁癥。作者無意將這種痛苦帶給讀者,但是對于思考AI是否要取代人的讀者,這個是繞不過去的坎。
自然數集、有理數集合和無理數集合在有限情況下非常容易理解,但是在無限的情況下很多屬性會發生變化。我們看下面兩個集合(N為自然數):
?自然數集合A{1,2,3,4, ...,2N}
?偶數集合B{2,4, , ...,2N}
在N是個有限的數的情況下,集合A的元素的元素數(叫作基)是集合B的基的兩倍。但是,當N無窮大的時候,兩個集合的勢(無限集合的基)就相等了。為什么呢?從偶數集中拿出一個2,從自然數集合中拿出1,再從偶數集中拿出4,從自然數集中拿出2,如此進行下去,可以用無窮自然數集1對1數的無窮集合叫作“可數”。一個無窮集合如果是可數的,那么就說它們的基和自然數集A相等。讀者可以嘗試證明一下無窮有理數集合也是可數的,只要把集合元素順序的寫法寫得可數。具體做法就是把分子分母之和等于1,2,3,4的自然數一一列舉如下:
有理數集合C{1/1,1/2,2/1,1/3,2/2,3/1…}
讀者可能興致勃勃地把這個可數的數的證明推廣到實數集,但是康托爾用對角論證法證明了實數集合是不可數的。康托爾的證明激發了圖靈只討論[0,1]區間的二進制形式的數,而使用二進制對實際計算機的發明產生極大的幫助。這里簡單介紹一下這個證明方法,具體證明方法可以參考維基百科。假設我們數完了所有的[0,1]之間的實數r1, r2,舉個象征性的排列例子如下(來自維基百科):
r1=0.5105110…
r2=0.4132043…
r3=0.8245026…
r4=0.2330126…
r5=0.4107246…
r6=0.9937838…
r7=0.0105135…
我們現在把所有無理數數完了。我們創造一個新的超越數,它的第k位取自上面數字rk的小數點后的第k個位并加1,如果遇到9變成0,所以這個新數就是0.6251346...它和上述的數都不一樣,所以它不在這個可數數列表中,可得出實數集是不可數的結論。這個證明帶來另外一個非常有意思的結論:同樣是無窮,實數集合的無窮要比自然數集合的無窮更大。如果把自然數集合的勢記為aleph-0(康托爾把它叫作超限數并用俄文字母標記為?0),因為康托爾想計算實數集的勢,于是他引入了[0,1]區間的二進制形式的數和集合論。他嘗試用小數點后無限位二進制數的0和1的交替的記法去對應實數里面的元素。為幫助讀者理解,列舉幾個數如下:

如果我們把1當作?一樣的標記,學過子集的讀者肯定覺得這個標記和列舉含3個元素{0,1,2}集合的所有子集的記法很相似:

將這個二進制小數列表無窮列舉下去,那么對應的子集表也可以無窮列舉下去。這些二進制形式的小數對應所有[0,1]區間的實數
,而表格第五列中子集的列表也等同于無窮自然集的子集。因為一個含有N個元素(基為N)的集合的子集數目為2N,無窮自然數子集的數目就是2aleph0,這個數也就是實數集合的勢??低袪柌聹y2aleph0就是下一個超限數aleph1(?1),中間不存在其他超限數,也叫連續統假設(這是希爾伯特提出的23個問題中的第一個問題
)。
因為康托爾的工作,我們知道了實數集與可數數集同樣是無窮大,但是實數集更大。圖靈發明了圖靈機和定義在其上的可計算數,所以圖靈自然要考慮:“可計算數對應了可數數還是整個實數集?”遺憾的是,圖靈證明了可計算數雖然包含無理數中的代數數(例如2這樣的代數方程的解)和部分超越數(例如π和e),但它是可數的??蓴禂档膭輆leph0(?0)遠小于實數集合的勢aleph1=2 aleph0。而世間萬物都是數,且大部分數都是實數,實數中的大部分超越數都無法用圖靈機表示。這意味著什么?第一個選擇是我們拒絕承認不可計算的實數的存在,這就等同于我們構造了不存在的數;第二個選擇是我們承認它們的存在,圖靈機無法表達一個隨機生成的無理數。那么人腦是否有個思考過程能對應一個無限、無理的數?圖靈和邱奇恰恰認為人腦不能完成這個工作,這就是他們提出的邱奇-圖靈論題。這個論題可以簡單地表述為:“凡是人類能夠執行的算法,圖靈機也可以?!?img alt="參見https://zh.wikipedia.org/wiki/邱奇-圖靈論題。" class="qqreader-footnote" src="https://epubservercos.yuewen.com/F7CF49/14571070005927006/epubprivate/OEBPS/Images/note.png?sign=1755865022-Fxlpny8O55BLFtcdclbjGqLm8vfBpnnc-0-89670da1e1f73dbea64071e5f0d0784c">用其等價的逆反命題來說是:“如果算法過程是圖靈機不能解的,人類也不能解?!钡竭@里,讀者可以清晰地知道,這個是論題,它并不能被證明。人工智能是否能夠取代人,本質上也依賴于這個論題是否正確。在作者眼里,這個論題就像幾何的五個公理或者物理學里面的能量守恒定律一樣,是我們公理化的認知邊界。
到這里,讀者已經看到圖靈機上能表達的可計算數是無窮的,但是有個更大的實數無窮是圖靈機無法表達的。這兩個極限的差別表現出圖靈機的解決問題的范疇是有局限的。舉個例子來說,我們不能發明一個程序檢查另外一個程序的錯誤。一個錯誤的程序會使圖靈機進入失控狀態,計算過程會進入到一個表格里面不存在的狀態(m-config)。回到希爾伯特可判定性的討論,圖靈試圖構造一個圖靈機,從希爾伯特的《數學原理》中的幾個公理和規則出發,讓圖靈機列舉出所有可證明的公式。但是,圖靈證明了這樣的圖靈機不存在。根據邱奇-圖靈論題,人類數學工作者也找不到一個思考過程判斷一個公式的可證明性。
圖靈接下來討論了一系列人和機器智能的問題。在1950年的Mind雜志上,圖靈就人工智能這個話題發表了另外一篇論文“Computing Machinery and Intelligence”。在這篇論文中,他提出了“機器能夠思考嗎?”這個問題。他認為思考和機器(讀者可以認為AI)的定義過于模糊,為此給出了知名的圖靈測試來回答這個問題。在圖靈測試中,被測試者(人)在一個黑暗的屋子里面與一臺機器或一個人進行對話(那個年代采用文本方式,現在則可以升級到語音方式),若被測試者無法區分對話的是人還是機器,則可以稱機器通過了圖靈測試。這也是電影《機械姬》的故事情節的基礎
。
我們如何看待邱奇-圖靈論題決定了我們怎么看待人和AI之間的關系。為幫助讀者理解邱奇-圖靈論題,作者嘗試用通俗易懂的語言來表述。圖靈機在某個狀態下觀察一個符號,然后切換到下一個狀態,這個行為和我們人類數學工作者幾乎一樣。差別在于,邱奇和圖靈認為機器的狀態是有限的,類似于我們構建的表1-1的行狀態是有限的。圖靈認為,如果人腦有無限的狀態,必然因為有些狀態無限接近而造成混亂。但是作者認為“人的思想可以支持一個無窮狀態”,因為我們對人的意識理解得并不清楚,證明數學不完備性的數學家哥德爾也表示了類似的觀點
。但是,機器智能或者人工智能的產生,極大地解放了人類在可計算數范圍內求解問題的速度。機器智能的誕生似乎加速了人類對于數字世界中未知領域的探索。只是,我們對于新生事物的直覺反應總是恐懼,對機器智能的興起也有類似的反應。圖靈認為人類在上個世紀末不再會抵觸和反對機器思考。但是到了今天,我們還是因為不了解或無法掌控機器智能而感到恐懼或不安,過度的恐懼和不安又有可能限制我們充分利用機器智能的長處,進而錯過對于機器智能以外的世界的探索。
我們今天感受到的數字世界,存在一定的公理和論題上的邊界。在這個邊界里面也有黑洞,原因是不完備性;我們沒有一條快速路徑來鑒別黑洞,是因為不可判定性。但是,如果你和作者一樣認為人的意識格局相比圖靈機具有無限性,那么應該持續地去拓展這個邊界。在拓展或者重構這個邊界的時候,有些黑洞或許會消失,或許可以找到一條路徑鑒別黑洞。就像希爾伯特說的:“我們必須知道;我們必將知道。”
- 數據庫基礎教程(SQL Server平臺)
- 數據可視化:從小白到數據工程師的成長之路
- 云計算環境下的信息資源集成與服務
- 計算機信息技術基礎實驗與習題
- Modern Programming: Object Oriented Programming and Best Practices
- 企業大數據系統構建實戰:技術、架構、實施與應用
- 數據革命:大數據價值實現方法、技術與案例
- 企業級數據與AI項目成功之道
- ZeroMQ
- 大數據架構商業之路:從業務需求到技術方案
- Augmented Reality using Appcelerator Titanium Starter
- 深入理解InfluxDB:時序數據庫詳解與實踐
- 改進的群智能算法及其應用
- 代碼的未來
- 數據中心UPS系統運維