- Greenplum:從大數據戰略到實現
- 馮雷
- 1424字
- 2019-10-10 18:57:08
1.4 ABC之間的關系
前面已經解釋了ABC的概念,這里我們來討論一下ABC之間的重要內在關系以及這些內在關系帶來的可以賦能于商業的巨大技術產能。從技術角度上看,ABC之間有以下兩層重要關系:
1)大量數據輸入到大數據系統,從而改善大數據系統里建立的機器學習模型。
2)云計算提供的算力使得普通機構也可以在今天用大數據系統計算大量數據從而獲得AI能力。
先看第一層關系。谷歌研究院的F. Pereira、P. Norvig和A. Halevy發表了一篇文章《數據的奇效》,解釋了如何通過大量數據提高機器學習模型的準確率。早在谷歌之前,微軟研究院的Michele Banko和Eric Brill在他們的論文《擴展到非常非常大文本來去除自然語言歧義》
中,展示了使用海量數據后各個機器模型的準確率都有大幅度提高,如圖1-6所示。這一結論為機器學習和人工智能的問題求解指出了一個新方向:用大量數據和大數據計算來提高人工智能。對比一下自然語言翻譯在最近10年因為利用大數據和計算所帶來的進展,讀者就能感覺到這種力量。

圖1-6 用海量數據后各個機器模型的準確率都有大幅度提高
再看第二層關系。云計算帶來的巨大好處就是提供商品化的計算資源,以前只有政府機構和大型企業才能擁有的巨大計算資源,現在可以被一個創業公司所擁有。這個從量變到質變的過程使得我們可以重新審視一些計算機行業的難題。計算資源的豐富使得大數據技術能夠以更低的門檻被使用。云計算將大數據技術平民化,使得大數據技術被企業廣泛采用,企業也利用大數據養成了保管數據的習慣,把數據當作未被開采的資源。大數據的普及給人工智能的分支—機器學習帶來了意想不到的驚喜。
綜合前面討論的ABC的內在含義,當前的機器學習、人工智能可以朝著以下兩個方向前進:
1)設計新的機器學習模型,在前人的模型上有所創新,改進模型效果。
2)使用已有的機器學習模型,但是利用前人所沒有的數據量和云計算帶來的計算能力來改進模型效果。
谷歌公司的Norvig曾經說過“我們沒有更好的算法,但是有更多的數據”。顯然,Norvig鼓勵按第二種方法進行創新,當然,這不意味著用第一種方法創新不重要。但需要指出的是,第一種方法的創新門檻要遠高于第二種,除了世界頂級的機構,普通機構很難擁有相應的資金、人才及配套的管理和文化來支撐第一種創新方法。第二種方法對于傳統的機構也是可以重復和實踐的,按照已經有的方法論、成功案例和人才培訓可以實現基于大數據和機器學習的高階數字化轉型。
前面討論的ABC的關系可以總結成圖1-7。云計算從量變到質變帶來前所未有和平民化的計算資源。企業和互聯網在數字化應用方面產生了大量的數據。這些數據和計算能力使得大數據技術普及到普通機構,而這些機構利用大數據來創建和改善現有的機器學習模型,帶來更好的人工智能成效。

圖1-7 ABC之間的關系
到目前為止的討論嚴格限制在技術的演進上。下一章將在商業層面繼續討論圖1-7中大數據、模型和應用之間的關系,著重分析商業決策者如何利用在大數據系統上的AI機會來改善自己的數字應用,以鞏固競爭優勢。
AI帶來的社會影響可能超過前三次技術革命。隨著科技和商業不斷推動AI技術前進,AI和人之間的關系是技術領袖、商業領袖和政策制定者們不得不思考的問題。前面關于AI和人的關系的大部分討論都沒有系統化和邏輯化,因而不是一個學術討論,1.5節則會在邱奇和圖靈的學術討論上回顧并延伸到AI和人的討論。這部分討論非常硬科學,可以作為選讀內容。但是對于那些有興趣深入思考AI技術和人類關系的讀者或者希望跳出AI框架內應用創新而成為系統創新者的讀者,啃啃這根硬骨頭定有“會當凌絕頂,一覽眾山小”的感覺。