第一節 人工智能應用大增長時代即將到來
雖然AlphaGo與AlphaStar被用于完成兩種完全不同的競技,但是它們實際上都基于同一種思想,即采用數據驅動的人工智能模型以完成非完全信息類博弈行為。同時,其更為顯著的特征或者更耳熟能詳的一個詞——深度學習,已然成為二者的標簽。
當我們在談論這一輪人工智能浪潮的時候,深度學習必將被濃墨重彩地介紹一番。而提及深度學習,則會牽扯出更多概念性的詞匯,如神經網絡、深度學習、機器學習、人工智能等。
那么,它們各自是什么,關系又是什么呢?
從研究領域來進行一句話概括:深度學習是機器學習重要的分支,而機器學習則是人工智能的重要分支。近10年來,在對實際任務的具體研究中,表現最好的一些應用大部分都是基于深度學習的,而也正是因為以神經網絡為基礎的深度學習所具有的突出表現,引發了人工智能的第三次浪潮。那么,神經網絡又是什么呢?簡單來說,神經網絡是一種模仿生物神經元結構和功能的數學模型或計算模型,其由大量的人工神經元連接進行計算,常用來對輸入和輸出間復雜的關系進行建模,或用來找到隱含在數據中的趨勢或模式。在很多時候,我們可以給深度學習一個更學術的名字——深度神經網絡模型。深度學習的研究起源于神經網絡,并以神經網絡為基礎開拓了一條嶄新的道路,讓人們看到了實現強人工智能的希望。但是深度學習發展到現在,已經不僅僅停留在將神經網絡加深,越來越多強大而實用的算法在這個領域綻放。盡管很多傳統非神經網絡的機器學習模型也通過模型的加深取得了很好的效果,但僅憑網絡層數的加深這一特點,是無法將深度學習的強大概括完整的。然而本書不是專業論文,側重于科普,那么,將深度學習約等于深度神經網絡雖然有失公允,但實際上不會影響閱讀效果。人工智能、機器學習和深度學習關系簡圖見圖1-1。

圖1-1 人工智能、機器學習和深度學習關系簡圖
既然是大數據驅動下基于神經網絡的深度學習掀起了這一輪人工智能浪潮,那么,我們就有必要深入了解一下什么是神經網絡,什么是深度學習,以及深度學習是如何實現機器智能的。我們先看一個具體的例子:機器通過深度學習來識別圖像中的數字(見圖1-2)。

圖1-2 機器通過深度學習來識別圖像中的數字
為了對圖像中的數字進行識別,我們先將描述數字的圖像向量化,作為神經網絡的輸入,隨后再進行深度神經網絡模型的搭建。深度神經網絡模型包含若干個網絡層,每層由若干神經元組成,均可接收信號,表示一種特定的輸出函數(或運算),稱為激勵函數。層與層之間通過權重系數進行連接,基于激勵函數和權重系數,神經網絡對某種函數的逼近或映射關系進行近似描述。到這里就是深度學習的基礎——神經網絡的基本架構和思路了。
那么,具體如何識別數字呢?例如,這個28×28像素的圖像(見圖1-3)展示的數字是7,于是我們將其降維成一個784×1的向量,作為神經網絡的輸入,即這個神經網絡輸入層的神經元個數是784。我們預先在網絡的出口都插一塊字牌(0,1,…,9),對應每一個我們想讓計算機認識的數字。這時,因為輸入的是“7”,等信號流過整個神經網絡,計算機就會“跑”到通道出口位置去“看一看”,是不是標記為“7”的通道出口的信號值最大。如果是這樣,就說明神經網絡參數配置在訓練數據上符合要求。如果不是這樣,就調節神經網絡里的鏈接權重參數,讓標記為“7”的通道出口的信號值最大。

圖1-3 通過深度神經網絡識別圖像中的數字7
這下,計算機要忙一陣了,因為要調節那么多鏈接權重參數!好在計算機的速度足夠快,飛速的計算加上算法的優化,計算機總是可以很快給出一個解決方案,調好所有鏈接權重參數,讓通道出口處的信號強度符合數據集里絕大多數標簽要求。這時,我們就可以說,這個神經網絡是一個訓練好的深度學習模型了。當大量數字被這個神經網絡處理,所有鏈接權重參數都調節到位后,整套神經網絡就可以用來識別手寫數字了。
從以上描述來看,顯然這樣的深度學習神經網絡不論是從數學模型還是從計算機算法的角度來看,理論上都很淺顯。可是為什么深度學習近10年才得以迅猛發展呢?2006年是深度學習發展史的分水嶺。杰弗里·辛頓在這一年發表了論文A fast learning algorithm for deep belief nets,告訴我們深度學習發展正當時,同年的論文Reducing the dimensionality of data with neural networks描繪了深度學習的前景。2012年,杰弗里·辛頓等人發表論文Imagenet classification with deep convolutional neural networks宣稱,深度學習算力瓶頸被圖形處理器(Graphics Processing Unit,GPU)正式攻克。2014年和2015年,論文Very deep convolutional networks for large-scale image recognition與Deep residual learning for image recognition相繼發表,神經網絡真正變得深不可測,深度學習模型訓練梯度消失瓶頸被正式攻破。至此,深度學習引領的人工智能時代大幕徐徐拉開。
此外,新一輪人工智能浪潮的到來還因為以下兩個條件已經成熟:
其一,2000年后互聯網行業的飛速發展積累了海量數據,同時數據存儲的成本也在快速下降,使得海量數據的存儲和分析成為可能。
其二,GPU的不斷成熟提供了必要的算力支持,既提高了算法可用性,又降低了算力成本。
而這正是大數據驅動的人工智能技術。大數據驅動是本輪人工智能浪潮的顯著特征之一,那么,大數據驅動的人工智能(以下簡稱“大數據人工智能”)與大數據分析是不是一回事呢?具體的數據驅動的人工智能應用各不相同,但它們都有一個共同的特點:輸入的數據越多,學到的東西就越多,智能模型的決策精度就會越高。這就是目前第三輪人工智能浪潮的本質:基于輸入學習的計算機系統。同時,這也正是大數據分析和大數據人工智能的關鍵區別:大數據分析通過計算機算法掃描數據,不論這個掃描統計的過程多么先進,最終都需要通過人工來揭示趨勢。人工智能可以在一定情況下相對獨立地做出最終的判斷和決策,也可以根據輸入的狀態進行智能調整。
通過前面對深度學習的討論,我們不妨拋開宏觀的思維,更具象地想一想,在本輪人工智能浪潮中,圖像和語音的分析應用是不是能成為深度學習算法大展身手的主戰場?不能馬上回答也沒關系,我來告訴你答案:這是肯定的。圖像作為人們承載知識及表達知識最常用的工具,圖像處理和識別一直都是經典問題,在近年得到了從基礎算法到工業應用的全方位發展。圖像處理和識別的關鍵點在于對圖像的特征進行提取和歸納,針對這一問題,傳統的數字圖像處理一般是通過人為設計算子對預處理后的圖像進行歸納識別。而深度學習出現后,人為設計算子被卷積神經網絡取代,即神經網絡自發對特征進行學習,無須額外的專家知識,從而使得特征識別更精確更具普適性。
在數字圖像處理的基礎上,人們發展了計算機視覺技術,而人工智能技術作為感知、認知和決策的綜合,使計算機視覺的感知過程就像人類“看”的過程。更進一步地說,計算機視覺就是用視覺傳感器代替人眼來對現實世界進行成像,利用計算機代替人腦對成像數據進行識別、跟蹤和測量等,并進一步做出判斷和決策。計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中感知的科學。從信息量比例的角度來看,人類認識和了解世界的信息有91%來自視覺,同樣地,計算機視覺成為機器認知世界的基礎,其終極目的是使計算機能夠像人一樣“看懂世界”。目前,計算機視覺主要應用在人臉識別、圖像識別方面(包括靜態、動態兩類信息)。
這里有一對易于混淆的概念:計算機視覺與機器視覺。二者有很多相同之處,如傳感手段都是視覺傳感器、使用CMOS(互補金屬氧化物半導體)、CCD(電荷耦合器件)等、信息處理過程都是獨立于人的。但是從更深入的技術角度來看,二者又有很大的區別,這正是自動化系統與智能化系統的本質區別。簡單來說,計算機視覺偏向于軟件,通過算法對圖像進行識別分析;而機器視覺軟硬件都包括(如采集設備、光源、鏡頭、控制、機構、算法等),指的是系統,但更偏硬件。在此先以計算機視覺作為具體領域來看第三輪人工智能浪潮的興起。
計算機視覺技術研究的起點在20世紀60年代,經過幾十年的起起落落,終于在2010年進入了一個激動人心的年代,即深度學習的年代。正是深度學習從本質上帶來了第三次人工智能革命。20世紀80年代,人們通過實驗發現,貓會對形狀非常類似的物品表現出同樣的刺激反應,表明動物的認知過程是分層的。多層神經網絡在經歷2000年左右的一個低谷后(具體原因我們將在第二章中具體闡述),杰弗里·辛頓教授于2006年在《科學》發表了對于深層神經網絡的訓練方法,帶來了深度學習的蓬勃發展。2012年,在ImageNet ILSVRC比賽中,冠軍團隊使用深度學習算法將識別錯誤率一舉降低了10%,成為影響人工智能進程的里程碑事件,深度學習從此進入了廣泛應用期。2015年,計算機視覺的識別能力正式超過了人眼的識別能力,其誤識別率降低到3.57%。
學術上的突破帶來了商業上的繁榮,從2010年開始,計算機視覺開始成為國內外各個公司關注的焦點,不論是初創企業還是龍頭企業紛紛開始布局。商業上的繁榮助推了計算機視覺應用領域的飛速發展。計算機視覺應用領域見圖1-4。

圖1-4 計算機視覺應用領域
實際上,結合了深度學習的計算機視覺技術在近幾年火爆的直播領域實現了大量的應用。例如,直播平臺產生的海量內容會給平臺的監管造成巨大壓力,傳統人工審核效果不穩定,而且需要投入巨大的人力,基于深度學習的計算機視覺技術的賦能,有效解決了這一痛點。與此同時,計算機視覺技術也可對前端的內容運營進行優化,如通過智能美顏、直播場景智能分類等提高用戶的體驗和活躍度。
從直播具體應用場景再進一步拓寬來看,與直播的UGC(用戶產生內容)性質類似,其他的應用場景還有短視頻平臺、社交平臺、云存儲平臺、CDN(內容分發網絡)及社區平臺等。
我們將視野進一步拓寬,無論是直播平臺還是短視頻平臺,其本質上都是動態視覺的應用領域。動態視覺的應用領域還包括安防和監控領域。近幾年,新一代智能監控系統——“電子警察”在上海、廣州及武漢等部分地區陸續“上崗”。與傳統視頻監控不同的是,“電子警察”配備了人工智能技術,尤其是智能識別算法技術匹配強大的邊緣計算硬件,促進了道路安防設備的快速升級迭代,智能化及邊緣化監控“天眼”已是大勢所趨。
從更高的維度來看,被譽為“第四次工業革命”的人工智能革命還將引領更宏大的社會變革。例如,語音類技術(包括語音識別、語音合成等),視覺類技術(包括生物識別、圖像識別、視頻識別等),以及自然語言處理類技術(包括機器翻譯、文本挖掘、情感分析等)。又如各種AI賦能,包括智能機器人、智能駕駛、無人機、AR/VR、大數據及數據服務等。
不難判斷,AI應用大增長的時代即將到來。