官术网_书友最值得收藏!

1.2 大數據的概念、特征及意義

1.2.1 什么是大數據

隨著大數據概念的普及,人們常常會問,多大的數據才叫大數據?其實,關于大數據,不同的機構或個人有不同的理解,難以有一個非常定量的定義。

美國咨詢公司——麥肯錫公司是研究大數據的先驅。該公司在其報告《大數據:創新、競爭和生產力的下一個前沿領域》中針對大數據給出的定義是:大數據指的是大小超出常規的數據庫工具能獲取、存儲、管理和分析的數據集。該報告同時強調,并不是說一定要超過特定 TB 值的數據集才能算是大數據。

國際數據公司(IDC)從4個特征定義大數據,即海量的數據規模(volume)、快速的數據流轉和動態的數據體系(velocity)、多樣的數據類型(variety)和巨大的數據價值(value)。

亞馬遜公司的大數據科學家 John Rauser 給出了大數據的簡單定義:Big data is any amount of data that’s too big to be handled by one computer(大數據是任何超出了一臺計算機處理能力的數據量)。

維基百科對大數據的定義是:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策實現更積極目的的信息。

《大數據時代的歷史機遇》一書的作者認為:大數據是“在多樣的或者大量數據中,迅速獲取信息的能力”。

可見,大數據是一個寬泛的概念,見仁見智,有些人可能強調數據的規模,即“大”字;有些人則可能強調大數據的作用,即大數據能幫助人們做什么;甚至有些人更強調新數據處理技術的應用。綜合而言,本書采用“百度百科”的定義:大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

1.2.2 大數據的特征

大數據是一種數據量增長速度極快,用傳統的數據處理方法或工具無法在用戶所要求的時間內完成采集、處理、存儲和計算的數據集合,它具有以下五大特征。

1.數據量大(volume)

大數據的第一個特征是數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少是PB,也可采用更大的單位EB或ZB。相關信息單位的換算關系如下。

1 Byte =8 bit

1 KB = 1 024 Bytes = 8192 bit

1 MB = 1 024 KB = 1 048 576 Bytes

1 GB = 1 024 MB = 1 048 576 KB

1 TB = 1 024 GB = 1 048 576 MB

1 PB = 1 024 TB = 1 048 576 GB

1 EB = 1 024 PB = 1 048 576 TB

1 ZB = 1 024 EB = 1 048 576 PB

2.類型繁多(variety)

大數據的第二個特征是種類和來源多樣化。大數據可以是結構化、半結構化和非結構化的數據,具體表現為網絡日志、音頻、視頻、圖片、地理位置信息等,多類型的數據對數據的處理能力提出了更高的要求。

3.價值密度低(value)

大數據的第三個特征是數據價值密度相對較低。有人把大數據比喻成金礦,金礦只有經過反復清洗與篩查,才能獲取其中的黃金,大數據是浪里淘沙卻又彌足珍貴。特別是,隨著互聯網以及物聯網的廣泛應用,智能感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯并通過強大的數據挖掘與機器學習算法來挖掘數據價值,是大數據時代最需要解決的問題。

4.速度快時效高(velocity)

大數據的第四個特征數據增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數據區別于傳統數據挖掘的顯著特征。

5.永遠在線(online)

大數據時代的數據是永遠在線的,是隨時能引用和計算的,這是大數據區別于傳統數據的最大特征。大數據不僅僅是規模大,更重要的是在線。數據只有在線(即數據與產品用戶或者客戶產生連接)的時候才有意義。例如,對于滴滴打車軟件,只有客戶的數據和出租車司機的數據都是實時在線的,他們的數據才有意義。在一個互聯網應用系統中,一個用戶行為及時地傳送給數據使用方后,數據使用方通過有效數據加工(數據分析或者數據挖掘),還可以進行數據優化,最終把用戶最想看到的內容推送給用戶,顯然將有助于用戶體驗的提升。

1.2.3 大數據來自哪兒

隨著互聯網、物聯網、移動互聯技術的發展,以電子商務(如京東、阿里巴巴等)、社交網絡(微信、微博等)為代表的新型Web應用迅速普及,從而涌現了各種各樣的大數據。目前,大數據主要來源于以下幾大領域。

1.搜索引擎服務

國內的搜索引擎服務商以百度為典型代表,百度的數據總量目前已經達到1000PB,網頁多達幾千億。百度每天需要響應來自 138 個國家和地區的數十億次請求,每日新增數據 10TB,每日要處理超過100PB的數據。

2.電子商務

在電子商務行業,大量在線交易數據,包括支付數據、查詢行為、物流運輸、購買喜好、點擊順序、評價行為等,匯聚起來構成大數據。以阿里巴巴為例,2013年該公司的電子商務數據總量就達到了30PB。目前,阿里巴巴擁有近5億注冊用戶,面向全球提供電子商務服務,使用了大約30萬臺服務器來保證電子商務的正常運營,并保存在線交易數據、用戶瀏覽和點擊網頁數據、購物數據等。在這些數據中,需要長期保存的數據量已達數百PB。

3.社交網絡

現在社會人際交往已經全面進入社交網絡的時代。大量的社交網絡平臺,如新浪微博、知乎、豆瓣、人人網、QQ 空間、微信、開心網、人人分享等,為人與人之間的溝通與交流提供了越來越便捷的服務。社交網絡是互聯網中人人都可以參與、創造、分享、傳播的信息互動平臺。大量的互聯網用戶創造出海量的社交行為數據,這些數據是過去未曾出現的,其中包含了大量的語音、圖片、視頻、短信等數據,數據規模之大前所未有。以騰訊QQ為例,它擁有8.5億用戶,使用4400臺服務器來存儲用戶產生的數據信息,經壓縮處理以后的數據總量達100PB,并且這一數據還在以每日新增200~300TB,月增加10%數據量的速度不斷增長。

4.音視頻在線服務

如今在線聽音樂或看電影已經成為一種主流的休閑娛樂方式。對于優酷網、愛奇藝、百度視頻、土豆網、搜狐視頻、樂視網、PPS、迅雷看看、騰訊視頻、新浪視頻、56網視頻、CNTV視頻、PPTV、風行網等音視頻在線網站來說,新的音視頻數據本身、高并發的在線播放請求以及用戶操作記錄都在源源不斷地產生。

5.個人數據業務

隨著智能手機的普及,集傳感器、GPS、錄音、拍照、錄相、短信等多功能為一體的移動設備成為互聯網中個人數據的爆發點。例如,已知iPhone手機有3個傳感器,三星手機有6個傳感器。它們每天會產生大量的點擊數據,形成海量用戶行為數據。這些數據會通過智能手機自動上傳到公司后臺的服務器中。

6.地理信息數據

電子地圖(如高德地圖、百度地圖、Google地圖)及其應用的涌現,也產生了大量的數據流數據。與代表一個屬性或一個度量值的傳統數據所不同的是,這些數據流數據不僅僅是經緯度、道路和地理標識之間的關聯,更代表著一個特定用戶的行為和習慣,這些數據流數據經過分析就會產生巨大的商業價值。

7.傳統企業

傳統企業,包括電信、金融、保險、電力、石化系統等,隨著產業升級、信息化建設的深入推進,將會爆發對大數據技術的需求。

電信運營商擁有大量的用戶通話、短信、地理位置、3G/4G上網記錄等數據,總量至少在PB級,而且每年新增的數據也在PB級。

目前,全國僅“銀聯”銀行卡發行量就已接近40億張,每天有近600億人民幣的交易額通過銀聯的銀行卡交易,雖然單張卡片數據量不大,但匯總起來就是一個非常龐大的數據量。目前國內銀行和金融系統每年產生的數據也能達到PB級,保險系統生成的數據量也會接近PB級別。

截至2013年年底,國家電網累計安裝智能電能表1.82億只,實現采集1.91億戶,采集覆蓋率56%,自動抄表核算率超過97%。智能電網正在產生大數據。例如,國網信通在北京5個小區的353個采集點采集1.2萬個參數,包括頻率、電壓、電流等,如果每15min采集一次,一天就能產生34GB的數據。

同樣,石油化工、智能水表等領域每年產生和保存下來的數據量也可達到PB級別。

8.公共機構

公共事業機構,包括政府、醫療、交通、教育、氣象等,也是大數據的重要來源。

隨著平安城市、智慧城市等工程的推進,安防監控對高清化、智能化、網絡化、數字化的要求越來越高,數據量自然也會不斷地迅速增加。例如,一個1080P的高清網絡攝像機一個月產生的視頻文件就可達1.8TB,而一個大城市的攝像頭可能多達50萬個,每天采集的視頻數據量就可以達到3PB。盡管出于成本考慮,很多監控視頻具備定期清除循環的特點,但整個視頻監控系統每年能夠保存下來的數據至少有數百PB。

與此相關的交通方面,航班、列車、水陸路運輸產生的各種視頻、文本類數據,每年都可達到PB級別。例如,北京市交通運行監測調度中心通過整合行業內外27個應用系統、6000多項靜動態數據、6 萬多路視頻,每天新增數據量達 30GB 左右,這些數據為政府決策、行業監管、企業運營、百姓出行等提供了服務支持。

有統計表明,中國一個中等城市(1000萬人口)50年所積累的醫療數據量可達到10PB。以此推算,整個醫療衛生行業,一年能夠保存下來的數據就可以達到數百PB。

目前,中國氣象系統所保存的全部數據在4~5PB,每年大約新增數百TB的數據,包含了地面觀測、衛星、雷達和數據預報產品等幾大類的觀測數據。除了常規的地面觀測站之外,以氣象衛星和多普勒天氣雷達為代表的遙感遙測業務領域在近30年來取得了飛速發展,這些領域每天都會產生TB級的觀測數據。

1.2.4 大數據的挑戰

大數據的挑戰是全方位的,必將對技術、運營商、安全、企業運營與管理等帶來全面的挑戰。

1.大數據對技術的挑戰

雖然大數據的相關技術正在日漸成熟,但是目前仍然存在著許多問題,以及以下嚴重不足。

互聯網運營商的帶寬能力以及對大數據爆炸式增長的適應能力將面臨前所未有的挑戰。

● 大數據處理與分析的能力遠未達到人們心中的理想水平,人們既需要高速信息傳輸,也需要大數據系統能對低密度低價值數據進行快速分析和處理。

● 物聯網實時數據(包括傳感器和攝像頭等的自動采集)的快速增長,對現在的存儲解決方案提出了全新的挑戰。

● 大數據技術產品在快速的發展中如何保持系統兼容性和保證已投入資源的價值將面臨挑戰。

● 現有的軟件工程模式,無論是思想、方法,還是工具,在大數據環境中都將面臨新的挑戰,特別是大數據的可視化還沒有達到人們的需求水平。

● 大數據的快速發展導致大數據人才的匱乏,無論是人才培養模式、教學內容、教學方法,還是實驗室建設等,都面臨巨大挑戰。

2.大數據對信息安全的挑戰

大數據技術與應用在快速發展的同時也帶來了更多安全風險。

(1)大數據系統將成為網絡攻擊的主要目標之一。在 Internet 中,大數據將是更容易被“發現”的目標。一方面,大數據常常包含了更復雜、更敏感的數據,這些數據會吸引更多的潛在攻擊者。另一方面,匯集起來的大數據使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本。

(2)大數據加大了隱私泄露風險。大量私人數據的匯集不可避免地加大了個人隱私泄露的風險。一方面,如何保證集中存儲之后的大數據信息不被泄露、不被濫用,本身就是一個亟待解決的大問題;另一方面,一些敏感數據的所有權和使用權并沒有明確的法律界定,出于成本控制的需要,那些基于大數據的分析產品可能在設計之初就沒有考慮個體隱私保護問題,甚至無法排除犯罪份子惡意使用大數據分析結果的可能。例如,若將個人手機的GPS功能與地理信息和日常出行結合進行大數據分析,則可以預測出一個人在下一時間段將在何地做何事,這將成為個人的最大人身安全隱患。

(3)大數據威脅現有的存儲和安防措施。大數據存儲帶來新的安全問題。例如,企業的生產數據與經營數據很可能會匯聚并存儲在一起,這將導致企業安全管理出現問題。大數據的規模也會影響到安全控制措施能否正確運行。特別是,當安全防護手段的更新升級速度無法跟上數據量非線性增長的步伐時,系統就會暴露大數據安全防護的漏洞。

(4)大數據技術本身也會成為黑客的攻擊手段。在企業用數據挖掘和數據分析等大數據技術獲取商業價值的同時,黑客也在利用這些大數據技術向企業發起攻擊。黑客會最大限度地收集更多的有用信息,比如郵件、微博、微信、電子商務交易與支付、電話和家庭住址等信息,然后進行大數據分析,從而使黑客的攻擊更加精準。另外,大數據也為黑客攻擊提供了更多機會。例如,利用大數據技術,黑客可能同時控制上百萬臺互聯網中的服務器,然后發起僵尸網絡攻擊。

(5)大數據成為高級可持續攻擊的載體。傳統的安全檢測是基于單個時間點進行的基于安全特征的實時匹配檢測,而高級可持續攻擊是一個實施過程,無法被實時檢測。此外,大數據的價值低密度性,使得安全檢測工具很難聚焦在價值點上,黑客可以將攻擊隱藏在大數據中,給安全服務提供商制造障礙。黑客設置的任何一個會誤導安全廠商目標信息提取與檢索的攻擊,都會導致安全監測偏離應有方向。

3.大數據對運營商的挑戰

大數據對運營商將從技術和業務兩個層面帶來挑戰。

前者所面臨的主要挑戰是數據的管理、采集、分析不足。數據量的增加使得運營商傳統的處理和存儲數據的平臺壓力增大,數據類型的多樣化使得傳統數據處理平臺難以處理。另外,運營商知道用戶訪問過哪些網站,但是不知道用戶究竟看了哪些內容;或者知道用戶在哪個地址,但是不知道用戶在哪個地點。

后者所面臨的挑戰有3條最為緊迫。一是法律環境的缺失和民眾不客觀的情緒。在西方,什么是信息隱私、什么是信息安全是有明確規定的。但是在中國,相關法律是缺失的,甚至可以說是空白。民眾對待數據帶來的便利和不利的態度,也會影響到大數據的應用。因此大數據應用首先需要更加寬容,更加清晰、明確的法制和用戶理性認知與評價的環境。二是行業的快速洗牌會對既有市場秩序產生很大的影響。三是內部體制的挑戰。數據獲取需要不同部門協同,電信運營商內部還缺乏統一的認識。同樣,電信運營商與數據運營商的區別是什么,目前也缺乏統一的認識,這將導致一個電信運營商可能會干類似數據運營商的事情。

4.大數據對企業經營與管理的挑戰

大數據對企業的經營與管理將帶來諸多挑戰。

(1)大數據將改變企業的營銷手段。企業的傳統營銷手段是集中推銷和各種廣告宣傳,更原始的辦法是用大量的人力來分發宣傳單以推銷產品。在大數據的時代,企業可以充分利用大數據進行精準高效的低成本營銷,例如國內各電子商務網站的廣告推送服務。

(2)大數據將為企業拓展廣闊的新型服務與渠道。例如,日本先進工業技術研究所的科學家通過在汽車座椅下部安裝壓力傳感器來采集人體臀部特征數據,做成了能識別車主的防盜系統,該系統只要發現駕駛員不是車主,就會要求司機輸入密碼,如密碼不對,汽車會自動熄火。

(3)大數據成為企業管理決策的重要依據。例如,美國網飛公司(Netflix)在推出全球首部網絡劇《紙牌屋》之前,將其龐大的用戶數據庫作為科學決策的依據,依靠數據分析抓住觀眾的喜好,最終確定了劇本、導演以及演員。《紙牌屋》推出之后,迅速成為美國各大社交網站的熱門話題,其明星效應使得該劇大獲成功。《紙牌屋》進入中國后,首先在美劇迷中掀起交流高潮,繼而由美劇迷在網絡中發起的分享行為得以擴散。所有這些都是對傳統影視公司商業模式的一種顛覆,也成就了一個網站主導、數據先行的商業神話。

(4)大數據對公共部門的服務與管理也將帶來極大的變革。事實表明,大數據在政府和公共服務領域的應用,可有效推動政務工作開展,提高政府部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。2009年,谷歌公司通過把 5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003至2008年間季節性流感傳播時期的數據進行比較,成功預測了當年甲型H1N1流感的爆發及傳播源頭,遠早于官方的疾控中心。

1.2.5 研究大數據的意義

大數據在帶來巨大技術挑戰的同時,也帶來了巨大的技術創新與商業機遇。不斷積累的大數據包含著很多在小數據量時不具備的深度知識和價值,大數據分析挖掘將能為行業/企業帶來巨大的商業價值,實現各種高附加值的增值服務,進一步提升行業/企業的經濟效益和社會效益。由于大數據隱含著巨大的深度價值,美國政府認為大數據是“未來的新石油”,將對未來的科技與經濟發展帶來深遠影響。因此,在未來,一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分,對數據的占有、控制和運用也將成為國家間和企業間新的爭奪焦點。

(1)大數據計算提高數據處理效率,增加人類認知盈余。大數據技術就像其他的技術革命一樣,是從效率提升入手。大數據技術平臺的出現提升了數據處理效率。其效率的提升是成幾何級數增長的,過去需要幾天或更多時間處理的數據,現在可能在幾分鐘之內就會完成。大數據的高效計算能力,為人類節省了更多的時間。我們都知道效率提升是人類社會進步的典型標志,可以推斷大數據技術將帶領人類社會進入下一個階段。通過大數據計算節省下來的時間,人們可以去消費、娛樂和創造。未來大數據計算將釋放人類社會巨大的產能,增加人類認知盈余,幫助人類更好地改造世界。

(2)全局的大數據讓人類了解事物背后的真相。相對于過去的樣本代替全體的統計方法,大數據將使用全局的數據,其統計出來的結果更為精確,更接近真實事物,能夠幫助科學家了解事物背后的真相。大數據帶來的統計結果將帶來全新的認知。糾正過去人們對事物錯誤的認識,影響過去人類行為、社會行為的結論,有利于政府、企業、科學家了解人類社會各種歷史行為的真正原因。大數據統計將糾正樣本統計誤差,為統計結論不斷糾錯。大數據可以讓人類更加接近和了解大自然,增加對自然災害原因的了解。

(3)大數據有助于了解事物發展的客觀規律,有利于科學決策。大數據收集了全局的、準確的數據,通過對大數據的分析和統計,可找出事物發展過程中的真相(例如,分析出人類社會的發展規律、自然界的發展規律等),利用大數據提供的分析結果來歸納和演繹出事物的發展規律,通過掌握事物發展規律來幫助人們進行科學決策。

(4)大數據提供了同事物的連接,客觀了解人類行為。在沒有大數據之前,我們了解人類行為的數據往往來源于一些被動的調查表格及滯后的統計數據。擁有了大數據技術之后,人類日常行為將通過手機APP、攝像頭、分享的圖片和視頻等與大數據技術實現對接,從而收集到人類的行為數據,再經過一定的分析,就可以統計或預測人類行為,進而可以更加客觀地觀察人類的行為。實際上,實現人類行為數據匯聚和分析,不僅有助于了解人類行為特點,而且這些數據最終將聚集成為一個巨大的“礦藏”。大數據技術的一個重要作用就是從中挖掘出重要商業價值。

(5)大數據改變過去的經驗思維,幫助人們建立數據思維。人類社會的發展一直都在依賴著數據,無論是工農業的發展與規劃,還是軍事戰役的謀劃,更多的是依靠經驗。但是出現大數據之后,我們將會面對著海量的數據,多種維度的數據、行為的數據、情緒的數據、實時的數據。這些數據是過去無法獲取,甚至是無法想象的,通過大數據計算和分析人們將會得到更可靠的結果。依靠這些結果,人們將會發現決定一件事、判斷一件事、了解一件事不再困難。例如,政府可借助于大數據來了解民眾需求,拋棄過去的經驗思維和慣性思維,掌握社會的客觀規律,達到社會“良治”。

主站蜘蛛池模板: 呼图壁县| 鹤峰县| 宣威市| 长兴县| 始兴县| 开阳县| 凤凰县| 平潭县| 汝阳县| 长乐市| 丹东市| 柘荣县| 福清市| 麦盖提县| 轮台县| 营山县| 宜州市| 崇仁县| 都安| 绥宁县| 太仓市| 西宁市| 大竹县| 贵溪市| 肇源县| 双桥区| 宝坻区| 郴州市| 伊金霍洛旗| 阿城市| 贵南县| 玉门市| 永嘉县| 永州市| 银川市| 河间市| 青浦区| 虎林市| 溧阳市| 卢龙县| 岢岚县|