迎接大數據思維新模式
2020年新冠肺炎疫情發生后,我待在川黔交界處赤水河畔的山里涼爽之地,讀了一些關于數字經濟的書籍。數字經濟這個詞在網絡上出現的頻率很高。我離開一線崗位,已在全國政協參政議政兩年有余,如果不去了解最新的經濟動態及相關信息,不跟上時代,就不能很好地完成政協崗位的使命,加之我們小組有幾位數據經濟方面的專家和企業家,比如工業和信息化部下屬的賽迪研究院院長盧山(2022年已任浙江省副省長)、百度創始人李彥宏、聯通研究院院長張云勇(2022年已任中國聯通云南省分公司總經理)等,因此找機會請教非常方便。同時我也找了一些數字經濟方面的專著閱讀,其中吳軍的《智能時代》和安德雷斯·韋思岸的《大數據和我們》等讀起來通俗易懂,似乎覺得自己看明白了一些,便有感而發,直抒己見。過去這方面的書讀得少,今次屬于掃盲性閱讀,可能理解得不是很到位,但把所讀所感寫出來也算是一種加強閱讀記憶的方法。這兩篇文章分別載于2020年6月20日和6月23日的《中國證券報》。
···
天有不測風云。2020年6月6日北京把新冠肺炎疫情防控等級由二級下調到三級沒幾天,病毒突然從新發地農產品批發市場竄出,把北京的防控等級又拽回二級。6月8日我們從北京飛回老家鄉下山里想涼快幾天,哪知11日深夜當地警察和醫護人員根據機票信息追蹤到家里,把我們拉去50公里外的縣醫院做核酸檢測,然后天天兩次上門測體溫,自我隔離14天,我深感大數據之厲害。借此機會看了幾本書,包括中信出版集團的《智能時代》。該書作者是大數據科普作家吳軍博士,他出版過幾本有關大數據的科普著作。作者在書中用通俗易懂的語言,對大數據和機器智能對未來的影響進行了充分的揭示,文字振聾發聵,諸如“數據密集型科學”“機械思維”“大數據思維”等新觀點,讓人耳目一新。吳軍既是大數據科學家,又曾任數據服務商高管,因此書中夾敘夾議,既有科學理論,又有實踐經驗,讓人讀起來無晦澀之困,有通俗之感。作者闡述了大數據科學發展的前因后果,概述了科學研究發展經歷的四個范式:一是描述自然現象的實驗科學,二是以牛頓定律等為代表的理論科學,三是模擬復雜現象的計算科學,四是目前的數據密集型科學。第四個范式是大數據時代的決定性因素,會與以前每一階段的工業革命一樣,給經濟社會帶來巨大變遷。作者認為,雖然數據在上面四個科學階段都存在,但只有今天,隨著互聯網的寬帶化和移動電子設備技術的應用,以及數據量的爆炸性增長和科學家對數據的深度挖掘分析,以大數據為特征的數據密集型科學才得以形成。
數據密集型科學推動思維革命
《智能時代》提出了“數據密集型科學”這一概念,說它將推動人類的思維革命。為了說明這一點,作者吳軍讓我們重溫了科學技術引導人類經濟社會進步的歷史。世界經濟發展史上的每一次技術革命,都是圍繞著一個核心技術展開的。第一次工業革命是蒸汽機,第二次工業革命是電氣化,第三次工業革命是以計算機和半導體芯片為主的信息化,第四次工業革命是大數據和機器智能引領的智能革命。作者預言,第四次工業革命將徹底改變當下我們所有人的生活,其標志是人類思維方式的革命性變革。傳統上人類決策是靠邏輯推理,而大數據和機器智能不是靠邏輯推理,而是靠大數據和智能算法幫助我們決策。這不可避免地會對未來經濟產生巨大影響。《智能時代》對過去商業模式的歷史變遷進行了總結:一是技術革命導致新的商業模式誕生;二是生產過剩,需求拉動經濟增長的模式不可逆轉;三是商業模式既有繼承性又有創新性。第一次工業革命導致產品需要靠展示推銷才能賣出去;第二次工業革命導致廣告業興起,展示推銷的方式變成了廣告,并促使商業鏈出現;第三次工業革命是信息革命,商業鏈得到發展,服務業的重要性凸顯。以數據密集型科學為指導思想的大數據時代,毫無疑問會推動現存商業模式的改變,大數據和機器智能將引領第四次工業革命。蒸汽機、電氣化、信息化是這樣,大數據時代仍然會是這樣,這是經濟發展的規律。這種變化是革命性的,是震撼人心的。為了讓讀者更直觀感性地認識這一點,吳軍在書中與我們一起回顧了2017年5月23日至27日那場智能機器人戰勝世界段位高手的圍棋比賽。智能機器人以3∶0戰勝人類頂尖棋手,靠的就是大數據和計算機算法。從經濟角度思考這場圍棋比賽,那就是大數據和智能機器人將會對現存經濟模式產生深刻而廣泛的影響。作者分析了機器人取勝的原因:其一,它采用的是機器學習與神經系統科學結合的學習算法;其二,它在強大的云計算系統中,通過統計模型在極短的時間內學習分析了幾千萬局圍棋棋譜和圍棋比賽的巨量數據,對于不同局勢下該如何行棋擁有比人類更為準確的估計,找到了比基礎棋譜更好的大數據棋路。這是人類大腦無論如何也無法完成的。機器智能里有兩個關鍵技術是人腦無法獲得的,第一個關鍵技術是把棋盤上當前的狀態變成一個獲勝概率的數學模型,是完全靠數據訓練出來的;第二個關鍵技術是啟發式搜索算法。作者認為下圍棋這個看似智能型的問題,從本質上講是一個大數據和算法的問題。在機器人的背后,是數據中心強大的服務器集群,它們獲得智能的方法不是和我們人一樣靠邏輯推理,而更多是利用大數據。因此,思維方式上邏輯推理“一霸天下”的歷史或將改寫。
機械思維將靠后站
機械思維是一種依靠邏輯推理的思維方式。如果機器人利用邏輯推理和圍棋手對弈,是戰勝不了人類的,但它另辟蹊徑,用大數據把人類頂級棋手比下去了。智能機器人在下棋時沒有用機械思維思考。作者認為,機械思維是前三次工業革命的科學方法論。它們和因果關系息息相關,是一種由“因”根據三段論推出“果”的邏輯推理方式。作者認為,機械思維是過去三個多世紀里人類總結出的最重要的思維方式,是現代文明的基礎。西方把機械思維歸功于牛頓的科學方法論,內容包括:第一,世界變化的規律是確定的;第二,世界變化的規律不僅可以被認識,而且可以用簡單的公式或語言描述清楚;第三,這些規律“放之四海而皆準”。機械思維方式導致了工業革命。從牛頓時代開始接下來的三個多世紀里,人類越來越習慣于用機械思維描述一切、抽象一切,即抽象個體然后進行標準化,形成了用一個通用的方案來解決所有問題的方法論。作者認為,工業革命是牛頓提供了方法論,即機械思維,而瓦特則是利用機械思維方法論發明了蒸汽機,開啟了西方工業革命的大門。因此,蒸汽機的成功不僅是技術的成功,更重要的是機械思維方法論的成功。從牛頓開始,人類社會的進步在很大程度上得益于機械思維,但是到了計算機信息時代,機械思維的局限性也越來越明顯。人們發現,世界本身存在著很大的不確定性。吳軍認為,機械思維的核心思想可以概括成確定性或者可預測性和因果關系。它促使人類歷史上涌現了很多重大發明和發現。尋找因果關系是機械思維的一個特征,但事實上,人類找到真正的因果關系是一件很難的事,里面的運氣成分很大。機械思維具有兩面性——善于把握確定性而難以解決不確定性問題。由于數據之間的相關性在某種程度上可以取代原來的因果關系,因此可以幫助我們得到我們想知道的答案。由于近30年來互聯網寬帶和移動通信設備迅速發展,由此產生的海量數據和計算機算法改變了機械思維300多年的習慣思維,大數據和計算機算法的結合不可避免地產生了大數據思維。因此在“人機大戰”中,機器人戰勝了人類頂尖棋手。
大數據思維引領新時代
大數據思維可以幫助人們解決在機械思維狀態下不能解決的一些問題。人機大戰中機器人的取勝說明,未來是可預測的,不確定可以轉化為確定。因此,大數據思維在新的工業革命中將引領新時代。吳軍認為,大數據的基礎是數據和信息的收集與匯聚,它們三者既有聯系,又有區別。
首先,在談數據前,吳軍講了數字和數據的聯系與區別。他認為,數字僅是數據非常小的一部分,數據的范疇比數字要大得多,但它們是有聯系的。互聯網上的文字、圖片和視頻等是數據,醫院里包括醫學影像在內的所有檔案是數據,公司里的各種設計圖紙是數據,出土文物上的文字、圖示也都是數據。人類發明了文字,記錄了人類活動并留傳后世,形成文明的傳承。以語言和文字形式存在的內容是全世界各種信息處理中最重要的數據,在20世紀90年代互聯網興起之后,數據的獲取變得非常容易。
其次,吳軍區別了數據和信息。吳軍認為,數據和信息還是稍有不同的。信息是關于世界、人和事的描述,它比數據來得抽象。人的大腦是一個信息源,從思考到找到合適的語句,再到通過發音說出來,是一個編碼的過程,通過媒介如聲道、空氣、電話線和揚聲器等傳播到聽眾的耳朵里,經過了一個長長的信道,最后聽眾把它聽懂,這是一個解碼的過程。隨著人類的進步以及處理數據和信息的能力不斷增強,人類從數據中獲取有用信息的本事越來越大,對數據和信息進行處理后,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統性的特征。而數據是知識的基礎,只有善用數據,我們才能得到數據背后的信息。數據中隱藏的信息和知識是客觀存在的,但是只有具有相關領域專業知識的人才能將它們挖掘出來。人類文明的進程伴隨著“獲取數據—分析數據—建立模型—預測未知”這一過程。雖然數據在文明進程中具有重大作用,但過去數據的作用常常被人們忽視。這里有兩個原因,一方面是過去數據量不足,積累大量的數據需要的時間太長;另一方面是數據和所想要獲得的信息之間的聯系通常是間接的,只有通過不同數據之間的相關性才能體現出來。
最后,吳軍區別了數據和大數據。前面已經說到數據的概念是指所有輸入計算機并被計算機程序處理的符號介質的總稱。大數據則不僅是數據體量大并能及時獲得,同時還具有多維度、多樣性、全面性、完備性等特征。從現象中觀察總結數據、匯總數據并運用數據,是衡量人類文明發展水平的方式之一。隨著人類的進步以及處理數據和信息的能力不斷增強,人類從數據中獲取有用信息的本事越來越大,這就是大數據應用的基礎。數據在計算機時代記錄了人類的行為,靠計算機去發掘、分析而得出人類沒有寫明的,存在于多次重復行為中的數據。這樣的行為,僅有數據做不到,只有計算機也難成,需要兩者結合才可以。這個加入計算機算法的數據被稱為大數據。計算機信息技術和電子移動設備使我們可以從足夠多的數據中發現各種事物的相關性,并把握事物發展的軌跡,依靠大數據提高對未來不確定性的把控能力。采用大數據的方法能夠使計算機的智能水平大大提高,幫助人類解決許多問題。決定今后20年經濟發展的是大數據和由之而來的智能革命,因此,從方法論的層面上看,大數據與300年前產生的機械思維一樣,在大數據和機器智能大規模運用的情況下,會形成一種全新的思維模式,即大數據思維,從而完成思維模式的一次革命。
大數據思維會帶來什么
按照大數據思維模式,我們做事情的方式與方法需要從根本上改變。回顧歷史,展望未來,大數據引發的智能革命將以一種全新的方式展開。蒸汽機、電氣化等技術革命都是生產力單點突破,從而帶動社會全面變革,今天的大數據正面臨這樣一個突破,大數據和機器智能的普及會帶來新一輪經濟社會生活的全面變革。大數據思維所具有的解決不確定性的能力,可以為經濟社會發展做出貢獻。在大數據思維的指導下,數據科學家可以把過去解決不了的問題變成大數據問題來處理。溫故而知新。吳軍說,在歷史上,一項技術帶動整個社會的變革通常遵循一個公式,即“現有產業+新技術=新產業”。第一次工業革命是“現有產業+蒸汽機=新產業”,第二次工業革命是“現有產業+電氣化=新產業”,第三次工業革命是“現有產業+摩爾定律=新產業”,而第四次工業革命將用兩個公式簡單概括,即“現有產業+大數據=新產業”“現有產業+機器智能=新產業”。大數據思維將帶來一場新技術革命。大數據思維的核心是,通過數據之間相關性的演算分析,取代機械思維下的因果推理。但大數據思維和原有的機械思維并非完全對立,它更多是對后者的補充,是對邏輯思維辦不到的事情提供有益的補充,消除事物的不確定性,從而解決問題。大數據和機器智能將從供給側推動許多新產業的誕生,帶動產業升級換代,滿足人類社會的多樣化、個性化需求,促進我們整個社會的升級和變遷。
這本書給我們提了個醒,面對即將到來的大數據時代,無論是國家還是個人,都應該建立大數據思維方式。跟上去則適者生存,掉下來則淘汰沒落。凡事預則立,不預則廢。普華永道預測,到2030年,大數據和人工智能將為全世界GDP(國內生產總值)貢獻15.7萬億美元。數據是開發高級神經系統的必要條件,有數據才有可能更好地理解語言、識別物體并提出有用的見解。中國是世界第一制造大國,同時還擁有8億~9億網民,以及10億以上的智能手機使用者,產生的海量數據是世界上獨一無二的,這樣的數據背景為中國發展大數據和機器智能提供了巨大的優勢條件。基于這種數據優勢,我們在第四次工業革命中存在非常大的彎道超車機會。目前,在大數據和機器智能領域,中國與世界先進水平的距離已經縮短,有些方面還略微領先,比如金融移動支付等。因勢利導地用大數據思維完成中國新經濟模式的變革是完全有可能的。在這種背景下讀一讀《智能時代》一書,可以幫助我們更好地理解即將到來的大數據思維新時代。