1.3 AI與大數據的關系
人工智能如今處在發展的早期階段,非常像十幾年前互聯網的成長。推動AI發展的三個動力是算法、算力和數據(見圖1-10)。第一個是算法,尤其是機器學習的算法在過去幾年迅速發展,不斷有各種各樣的創新,深度學習、DNN、RNN、CNN到GAN,不停地有新的發明創造出來;第二個是計算能力,隨著云計算的普及,計算的成本在不斷下降,服務器也變得越來越強大,我們將在第2章中詳細介紹人工智能芯片產業;第三個是數據,數據的產生仍然在以一個非常高的速度發展,數據越多,訓練越全面,就會進一步推動算法的不斷創新,以及對計算能力提出更新的要求。數據是AI的根本和基礎,AI和大數據密不可分。沒有海量數據支撐的人工智能就是人工智障。

圖1-10 推動AI的動力
AI的火熱是與近幾年大數據獲得重大的突破緊密相關的。本輪AI浪潮是大數據驅動的,算法就是“煉數術”。因此,AI面臨的核心挑戰之一依然是數據,尤其是進行監督式學習時所需要的高質量訓練數據源。大數據與人工智能相輔相成,在人工智能的加持下,海量的大數據對算法模型不斷訓練,又在結果輸出上進行優化,從而使人工智能向更為智能化的方向進步,大數據與人工智能的結合將在更多領域中擊敗人類所能夠做到的極限。
1.什么是大數據?
云計算、物聯網、移動互聯、社交媒體等新興信息技術和應用模式的快速發展,促使全球數據量急劇增加,推動人類社會邁入大數據時代。一般意義上,大數據是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量復雜數據集合。
大數據呈現出多種鮮明的特征。
· 在數據量方面,當前全球所擁有的數據總量已經遠遠超過歷史上的任何時期,更為重要的是,數據量的增加速度呈現出倍增趨勢,并且每個應用所計算的數據量也大幅增加。
· 在數據速率方面,數據的產生、傳播的速度更快,在不同時空中流轉,呈現出鮮明的流式特征,更為重要的是,數據價值的有效時間急劇縮短,也要求越來越高的數據計算和使用能力。
· 在數據復雜性方面,數據種類繁多,數據在編碼方式、存儲格式、應用特征等多個方面也存在多層次、多方面的差異性,結構化、半結構化、非結構化數據并存,并且半結構化、非結構化數據所占的比例不斷增加。
· 在數據價值方面,數據規模增大到一定程度之后,隱含于數據中的知識的價值也隨之增大,并將更多地推動社會的發展和科技的進步。此外,大數據往往還呈現出個性化、不完備化、價值稀疏、交叉復用等特征。
大數據蘊含大信息,大信息提煉大知識,大知識將在更高的層面、更廣的視角、更大的范圍幫助用戶提高洞察力,提升決策力,將為人類社會創造前所未有的重大價值。但與此同時,這些總量極大的價值往往隱藏在大數據中,表現出價值密度極低、分布極其不規律、信息隱藏程度極深、發現有用的價值極其困難的鮮明特征。
2.大數據產業鏈
如圖1-11所示,大數據生產全鏈條覆蓋數據采集、計算引擎、數據加工、數據可視化、機器學習、AI應用等。

圖1-11 大數據產業鏈
3.基于大數據的AI應用
如何把數據資源轉化為AI應用,是我們特別關注的問題。現在看來,大數據和AI的結合主要有以下幾種較為常用的場景。
· 追蹤:互聯網和物聯網無時無刻不在記錄數據,大數據可以追蹤、追溯任何記錄,形成真實的歷史軌跡。歷史數據是許多AI應用的起點,包括消費者購買行為分析、購買偏好分析等。在電商平臺上,從前是人找貨,現在是貨找人。
· 識別:在對各種因素全面追蹤的基礎上,通過定位、比對、篩選可以實現精準識別,尤其是對語音、圖像、視頻進行識別,使AI可分析的內容更加豐富,得到的結果更為精準。
· 畫像:通過對同一主體不同數據源的追蹤、識別、匹配,形成更立體的刻畫和更全面的認識。只要積累足夠的用戶數據,就能分析出用戶的喜好與購買習慣,甚至做到“比用戶更了解用戶自己”。這樣的畫像就可以精準地推送廣告和產品;對企業畫像,可以準確地判斷其信用及面臨的風險。
· 預測:在歷史軌跡、識別和畫像基礎上,對未來趨勢及重復出現的可能性進行預測,當某些指標出現預期變化或超預期變化時給予提示、預警。以前也有基于統計的預測,大數據和AI技術大大豐富了預測手段,對建立風險控制模型有深刻意義。
· 匹配:在海量信息中精準追蹤和識別,利用相關性、接近性等進行篩選比對,更有效率地實現產品搭售和供需匹配。
· 優化:按距離最短、成本最低等給定的原則,通過各種算法對路徑、資源等進行優化配置。對企業而言,提高服務水平,提升內部效率;對公共部門而言,節約公共資源,提升公共服務能力。
總之,把用戶、數據和算法巧妙地連接起來的是AI應用(或AI產品)。最終,大數據的成功最關鍵的一步往往是一個極富想象力的AI創新應用。比如金融行業的“秒貸”,就是基于AI算法的數據智能實時發揮作用,最終實現秒級放貸,這個是傳統的金融服務沒法想象的。這樣的智能商業才是對傳統商業的顛覆。再比如,美國的UPS快遞公司建立了基于大數據的預測性分析AI系統來檢測全美60000輛車輛的實時車況,以便及時地進行防御性修理。
4.深度神經網絡等新興技術開辟大數據分析技術的新時代
傳統的數據分析方法,無論是傳統的OLAP技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低,在處理太字節(TB)級以上的數據時效率更低。其次是數據分析精度難以隨著數據量的提升而得到改進,特別是難以應對非結構化數據。目前來看,以深度神經網絡等新興技術為代表的大數據分析技術已經得到一定發展。神經網絡是一種先進的人工智能技術,具有自行處理、分布存儲和高度容錯等特性,非常適合處理非線性的以及模糊、不完整、不嚴密的知識或數據,十分適合解決大數據挖掘的問題。深度學習是近年來機器學習領域最令人矚目的方向。自2006年深度學習界泰斗Geoffrey Hinton在Science雜志上發表Deep Belief Networks的論文后,激活了神經網絡的研究,開啟了深度神經網絡的新時代。學術界和工業界對深度學習熱情高漲,并逐漸在語音識別、圖像識別、自然語言處理等領域獲得突破性進展,深度學習在語音識別領域的準確率獲得了20%~30%的提升,突破了近十年的瓶頸。圖像識別領域早在2013年就通過深度學習將準確率提高到了89%。神經網絡算法的結構和流程特性非常適合大數據分布式處理平臺進行計算,通過神經網絡能夠實現各領域的分析算法和應用。