第一章 什么是大數據
最早提出“大數據”時代到來的是全球知名的麥肯錫咨詢公司,其稱:數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。“大數據”在物理學、生物學、環境生態學等領域,以及軍事、金融、通信等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。隨著以博客、社交網絡、基于位置的服務LBS為代表的新型信息發布方式的不斷涌現,以及云計算、物聯網等技術的興起,數據正以前所未有的速度在不斷地增長和累積,大數據時代已經來到。
根據IDC做出的估測,數據一直都在以每年50%的速度增長,也就是說每兩年就增長1倍(大數據摩爾定律)。這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量。這不是簡單的數據增多的問題,而是全新的問題。舉例來說,在當今全球范圍內的工業設備、汽車、電子儀表和裝運箱中,都有著無數的數字傳感器,這些傳感器能測量和交流位置、運動、震動、溫度和濕度等數據,甚至還能測量空氣中的化學變化。將這些交流傳感器與計算智能連接起來,就是目前“物聯網”(internet of things)或“工業互聯網”(industrial internet)。在信息獲取的問題上取得進步是促進“大數據”趨勢發展的重要原因。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。學術界、工業界,甚至政府機構都已經開始密切關注大數據問題,并對其產生濃厚的興趣。