書名: 大學計算機基礎教程(第七版)作者名: 柴欣 史巧碩本章字數: 5026字更新時間: 2019-10-14 11:27:29
1.3.6 大數據
1.大數據相關理論
(1)大數據的定義與特征
大數據是一個寬泛的概念,很多機構和科學家都給出了定義,如麥肯錫(美國著名的咨詢公司)給出的大數據定義是:大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,并不是說一定要超過特定TB值的數據集才能算是大數據。而亞馬遜(全球最大的電子商務公司)的大數據科學家John Rauser給出了一個簡單的定義:大數據是任何超過了一臺計算機處理能力的數據量。
簡單地說,大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合,它具有4個基本特征:一是數據體量巨大,從TB級別躍升到PB級別(1PB=1024TB)、EB級別(100萬個TB)或ZB級別(10億個TB);二是數據類型多樣,現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數;三是處理速度快,數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息;四是價值密度低,商業價值高,以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。業界將這4個特征歸納為4個“V”——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。
在上面幾個定義,無一例外地都突出了大數據的“大”字。誠然“大”是大數據的一個重要特征,但遠遠不是全部。與大數據本身的“大”相比,更重要的其實是蘊含在大數據中的價值。因此,在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值,以及在多樣的或者大量數據中迅速獲取信息的能力,是更為重要的。大數據的核心能力就是發現規律和預測未來。
(2)大數據的價值
大數據的價值是什么?在投資者眼里就是這些數據所體現的資產。比如,某社交網站上市時,評估機構評定的有效資產中大部分都是其網站上的數據。因此,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。從大數據的價值鏈條來分析,存在3種模式:
①手握大數據,但是沒有利用好。比較典型的是金融機構、電信行業、政府機構等。
②沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,如IBM、Oracle等。
③既有數據,又有大數據思維。比較典型的是Google、亞馬遜等。
未來在大數據領域最具有價值的是兩種事物:一種是擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;另一種是還未有被大數據觸及過的業務領域,這些是還未被挖掘的油井、金礦,是所謂的藍海。
(3)大數據的現在和未來
大數據在當下已經在很多方面有著杰出的表現,如大數據幫助政府實現市場經濟調控、公共衛生安全防范、災難預警、社會輿論監督;大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;大數據幫助醫療機構建立患者的疾病風險跟蹤機制;大數據幫助航空公司節省運營成本,幫助電信企業實現售后服務質量提升,幫助保險企業識別欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的設備;大數據幫助電商公司向用戶推薦商品和服務,幫助旅游網站為旅游者提供心儀的旅游路線,幫助二手市場的買賣雙方找到最合適的交易目標;大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;大數據幫助娛樂行業預測歌手、歌曲、電影、電視劇的受歡迎程度;大數據幫助社交網站提供更準確的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的游戲以及適合購買的商品。
其實,這些還遠遠不夠,未來大數據的身影應該無處不在,而當物聯網發展到達一定規模時,借助條形碼、二維碼、RFID等能夠唯一標識產品,傳感器、可穿戴設備、智能感知、視頻采集、增強現實等技術可實現實時的信息采集和分析,這些數據能夠支撐智慧城市、智慧交通、智慧能源、智慧醫療、智慧環保的理念需要,它們都將是大數據的采集數據來源和服務范圍。
未來的大數據除了將更好地解決社會問題、商業營銷問題、科學技術問題,還有一個可預見的趨勢是以人為本的大數據方針。比如,建立個人的數據中心,將每個人的日常生活習慣、身體體征、社會網絡、知識能力、愛好性情、疾病嗜好、情緒波動等都存儲下來,這些數據可以被充分利用:醫療機構將實時地監測用戶的身體健康狀況;教育機構更有針對地制訂用戶喜歡的教育培訓計劃;服務行業為用戶提供即時健康的符合用戶生活習慣的食物和其他服務;社交網絡能為用戶提供合適的交友對象,并為志同道合的人群組織各種聚會活動;金融機構能幫助用戶進行有效的理財管理,為用戶的資金提供更有效的使用建議和規劃;道路交通、汽車租賃及運輸行業可以為用戶提供更合適的出行線路和路途服務安排。
(4)大數據隱私
用戶隱私問題一直是大數據應用難以繞開的一個問題,當在不同的網站上注冊了個人信息后,可能這些信息已經被擴散出去;當用戶莫名其妙地接到各種郵件、電話、短信的滋擾時,不會想到自己的電話號碼、郵箱、生日、購買記錄、收入水平、家庭住址、親朋好友等私人信息早就被各種商業機構非法存儲或賣給其他任何有需要的企業或個人。更可怕的是,這些信息用戶永遠無法刪除,它們永遠存在于互聯網的某些人們知道的角落。
很多互聯網企業也意識到隱私對于用戶的重要性,為了繼續得到用戶的信任,他們會采取相應的一些辦法。比如,一些網絡服務商承諾僅保留用戶的搜索記錄若干個月,瀏覽器廠商提供了無痕上網模式,社交網站拒絕公共搜索引擎的“爬蟲”進入,并將提供出去的數據全部采取匿名方式處理等。
目前,我國并沒有專門的法律法規來界定用戶隱私,處理相關問題時多采用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強,合法合規地獲取數據、分析數據和應用數據,是進行大數據分析時必須遵循的原則。
2.大數據相關的技術
(1)云技術
大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的計算機分配工作。可以說,云計算提供了基礎架構平臺,而大數據則應用運行在這個平臺上。這兩者的關系是,沒有大數據的信息積淀,云計算的計算能力再強大,也難以找到用武之地;而沒有云計算的處理能力,則大數據的信息積淀再豐富,也終究只是鏡花水月。大數據需要的云計算技術包括:虛擬化技術、分布式處理技術、海量數據的存儲和管理技術、NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。
(2)分布式處理技術
分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務。
Hadoop是在分布式服務器集群上存儲海量數據并運行分布式分析應用的一種方法。Hadoop是Apache軟件基金會管理的開源軟件平臺,Apache Hadoop軟件庫是一個框架,允許在集群服務器上使用簡單的編程模型對大數據集進行分布式處理。Hadoop被設計成能夠從單臺服務器擴展到數以千計的服務器,每臺服務器都有本地的計算和存儲資源。Hadoop的高可用性并不依賴硬件,其代碼庫自身就能在應用層偵測并處理硬件故障,因此能基于服務器集群提供高可用性的服務。
Hadoop系統的健壯性非常好,即使某臺服務器甚至集群停機,運行其上的大數據分析應用也不會中斷。此外,Hadoop的效率也很高,它幾乎完全是模塊化的,這意味著可以用其他軟件工具抽換掉Hadoop的模塊。這使得Hadoop的架構異常靈活,同時又不犧牲其可靠性和高效率。
Hadoop的另外一個獨特之處是:所有的功能都是分布式的,而不是傳統數據庫的集中式系統。
Hadoop的特性是可靠的、高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴于社區服務器,因此它的成本比較低,任何人都可以使用。
(3)存儲技術
大數據存儲致力于研發可以擴展至PB甚至EB級別的數據存儲平臺。著名的摩爾定律提出:每18個月集成電路的復雜性就增加一倍。所以,存儲器的成本大約每18~24個月就下降一半。成本的不斷下降也造就了大數據的可存儲性。比如,Google大約管理著超過50萬臺服務器和100萬塊硬盤,而且Google還在不斷地擴大計算能力和存儲能力,其中很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。
(4)感知技術
大數據的采集和感知技術的發展是緊密聯系的。以傳感器技術、指紋識別技術、RFID技術、坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的數據信息。
而隨著智能手機的普及,感知技術迎來了發展的高峰期,除了地理位置信息被廣泛地應用外,一些新的感知手段也開始登上舞臺,很多與感知相關的技術革新讓人們耳目一新,其實,這些感知被逐漸捕獲的過程就是就世界被數據化的過程,一旦世界被完全數據化,那么世界的本質也就是信息了。
3.大數據的實踐
(1)互聯網的大數據
互聯網上的數據每年增長50%,每兩年便翻一番,而目前世界上90%以上的數據是最近幾年才產生的。
互聯網大數據的典型代表性包括:用戶行為數據、用戶消費數據、用戶地理位置數據、互聯網金融數據、用戶社交網站生成內容的數據(也稱UGC User Generated Content數據)。例如,百度擁有兩種類型的大數據:用戶搜索表征的需求數據、爬蟲和阿拉丁獲取的公共Web數據;阿里巴巴擁有交易數據和信用數據,除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據;騰訊擁有用戶關系數據和基于此產生的社交數據。這些數據可以分析人們的生活和行為,從中可以挖掘出政治、社會、文化、商業、健康等領域的信息,甚至預測未來。
在信息技術更加發達的美國,除了行業知名的Google等網站外,還涌現了很多大數據類型的公司,它們專門經營數據產品。據IDC預測,到2020年全球將總共擁有35ZB的數據量。互聯網是大數據發展的前哨陣地,目前人們已經習慣了將自己的生活通過網絡進行數據化,方便分享、記錄及回憶。
(2)政府的大數據
在美國,奧巴馬政府(2012年)宣布投資2億美元拉動大數據相關產業發展,將“大數據戰略”上升為國家意志。奧巴馬政府將數據定義為“未來的新石油”,并表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的占有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
在我國,政府各個部門都握有構成社會基礎的原始數據,比如氣象數據、金融數據、信用數據、電力數據、煤氣數據、自來水數據、道路交通數據、客運數據、安全刑事案件數據、住房數據、海關數據、出入境數據、旅游數據、醫療數據、教育數據、環保數據等。這些數據在每個政府部門看起來是單一的、靜態的。但是,如果可以將這些數據關聯起來,并對這些數據進行有效的關聯分析和統一管理,這些數據必定將獲得新生,其價值是無法估量的。
(3)企業的大數據
作為企業來說,最關注的是數據背后能有怎樣的信息,企業該做怎樣的決策,這一切都需要通過數據來傳遞和支撐。大數據可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎勵忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創造市場。
對于企業的大數據,隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成“數據供應鏈”。對于提供大數據服務的企業來說,他們等待的是合作機會。
(4)個人的大數據
簡單來說,個人的大數據就是與個人相關聯的各種有價值數據信息被有效采集后,可由本人授權提供第三方進行處理和使用,并獲得第三方提供的數據服務。
未來,每個用戶可以在互聯網上注冊個人的數據中心,以存儲個人的大數據信息。用戶可確定哪些個人數據可被采集,并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數據,比如牙齒監控數據、心率數據、體溫數據、視力數據、記憶能力、地理位置信息、社會關系數據、運動數據、飲食數據、購物數據等。用戶可以將這些數據分別授權給相應的機構,由他們監控和使用這些數據,進而為用戶制訂有針對性的服務計劃。以個人為中心的大數據有如下一些特性:
①數據僅留存在個人中心,其他第三方機構只被授權使用(數據有一定的使用期限),且必須接受用后即焚的監管。
②采集個人數據應該明確分類,除了國家立法明確要求接受監控的數據外,其他類型數據都由用戶自己決定是否被采集。
③數據的使用將只能由用戶進行授權,數據中心可幫助監控個人數據的整個生命周期。