官术网_书友最值得收藏!

第1章 大數據的基本定義

當今社會,有效利用大數據可以讓我們擁有壓倒性的競爭優勢。在本章中,我們將介紹什么是大數據,以及它的幾個關鍵概念。

大數據究竟是什么?乍一看,這個術語相當模糊,像是一個包含海量信息的詞語。盡管這樣的描述符合我們心中對大數據這個概念的設想,但它并沒有確切地告訴我們大數據是什么。

通常人們認為大數據就是超大的數據集,對于大數據的管理和分析已經超出了傳統數據處理工具的能力。我們借助互聯網搜尋關于大數據概念的一切線索,發現大數據愛好者所推廣和分享的大數據概念可以精簡如下:大數據界定了一種環境,在這種環境中數據集可以增長到很大的規模,以至于常規的信息技術不能有效地應對數據集規模的增長。換句話說,數據集已經增長到難以管理的程度,甚至難以從中獲取價值。其中主要的困難就在于對數據的收集、存儲、檢索、共享、分析以及可視化。

大數據的概念有更多的內涵和外延,不僅包括數據集的規模,還包括數據利用的過程。大數據甚至已成為其他業務概念的同義詞,如商務智能、分析和數據挖掘。

然而,大數據并不是一個新鮮事物。雖然大規模的數據集是在近兩年被創造出來的,但是大數據在科學和醫學領域早有根源,這些領域通過分析大規模數據來進行藥物研發、物理建模以及其他研究。這就是大數據概念的來龍去脈。

1.1 大數據分析的出現

科學家對大數據集進行分析和研究,進而得出研究結論,在這種情況下數據越多、分析研究越多,得出的結果也就越好。研究人員通過整合相關數據、非結構化數據、歷史數據、實時數據,進而產生我們現在所說的大數據。

在商業領域,大數據就意味著商機。根據IBM的報告,人類社會現在每天都能創造出2.5×1018字節的數據,從而使得世界上90%的數據都能在過往的兩年間被創造出來。這些數據來自社會的方方面面:收集氣象信息的傳感器、社交網站的帖子、數碼圖片、在線視頻傳輸、在線交易記錄,以及手機的GPS信號等。它們都是大數據的催化劑,而且伴隨著數據分析、算法和其他技術的進一步使用,所有這些數據的內在價值都能被發掘出來。

大數據在很多領域的重要作用和價值業已被充分證明。例如美國國家海洋氣候管理局(NOAA)、美國國家航空航天管理局(NASA)以及美國的一些制藥公司和能源企業等,這些組織自身積累了大量的數據,如今它們每天利用大數據技術從中提取價值。

美國國家海洋氣候管理局運用大數據技術促進氣候、生態系統、天氣和商業貿易方面的研究,而美國國家航空航天管理局則將大數據用于航天和其他方面的研究。制藥公司和能源企業則利用大數據實現更具體的研究,例如藥物測試和地球物理分析。《紐約時報》利用大數據進行文本分析和網絡信息挖掘,而華特迪士尼公司則將大數據與消費者的行為相關聯,進一步理解消費者在其實體店、主題公園、門戶網站的消費行為。

此外,大數據在現代商業領域還另有妙用:大型組織日漸面臨著管理大量合法的結構化和非結構化數據的需求,這些數據涉及從數據庫的交易信息到員工微博,從供應商的記錄到監督部門的文件。近期的法庭案件倡導企業遵守法律程序,保存好所有文檔、電子郵件信息以及其他電子通信設備的信息,如即時通信信息和互聯網通信設備的信息,因為這些信息在企業面臨訴訟時可以用于法庭的電子取證。

1.2 大數據如何發掘價值

提取出有價值的信息總是說起來容易,做起來難。從理念、技術到實踐操作,任何一個環節都對我們發掘大數據的內在價值提出了挑戰。

我們可以通過四個維度來思考大數據,這四個維度的內容如下:

1)體量(Volume)。大數據的數據規模很大。企業里處處充滿數據,很容易積累起兆級乃至PB級的數據信息。

2)種類(Variety)。除了結構化數據,大數據還包含各種各樣的非結構化數據,如文本、音頻、視頻、點擊流量、日志文件等。

3)真實(Veracity)。從大數據整合而來的大量數據信息會存在一定的統計誤差和對信息的曲解。信息的精確性對其價值至關重要。

4)速度(Velocity)。大數據對于時間是很敏感的,因為在企業中數據是時時流動的,必須使用大數據才能最大化它的商業價值,但是從中得出的結論也必須要適合于企業的歷史數據才行。

4V從四個維度詮釋了大數據的價值。然而,大數據的復雜性并不僅限于以上四個維度。在大數據驅動過程中,還存在其他的影響要素。而這一過程是大數據技術和分析的混合物,它們被用于定義數據資源的價值,而這種價值又可以轉化成驅動商業進步的可操作元素。

這里提及的許多技術和概念并不新奇,而是在大數據的理念下“重新”出現的。最好的辦法是劃分成類別再進行分析,這些技術和概念包括以下內容。

傳統的商務智能(BI)領域。它包括廣泛的商業應用程序以及對數據進行收集、存儲、分析和處理的技術。而且BI提供可操作的信息,它們使用基于事實的支持系統來做出更好的商務決策。BI通過對來自數據庫、應用程序以及其他數據資源的數據進行深度分析而推動其運行。在一些領域中,BI能夠提供業務運營的歷史、當前和預測性視圖。

數據挖掘領域。這是一個從不同角度分析數據并從中挖掘有用信息的過程。數據挖掘通常適用于靜態數據或歷史數據。它更關注于預測目的的建模和知識發現,而不是單純的數據描述,其目的在于從大規模數據集中發現新模型。

統計應用程序。這些程序關注以統計原理為基礎的算法,而且通常應用于與民意調查、人口普查相關的數據集以及其他的靜態數據集。這些程序處理的數據理論上以樣本觀測值為主,用來進行評估、檢測和預測分析。經驗數據如調查和實驗報告的數據是可分析信息的主要來源。

預測分析。預測分析是數據統計程序中的一類,它主要是對數據庫中的信息和趨勢進行分析,從而得到預測結論。在金融和科學領域中預測分析尤為重要,一旦有外部因素加入數據集中,就需要進行新的預測。預測分析的一個主要目的在于識別商業運作、市場和制造業中的風險與機遇。

數據建模。它是一種假設性的分析應用,其中嵌套著多重的“what-if”語句,通過算法被應用于多個數據集。理想條件下,建模信息的變動應基于對算法可用的信息,提出對數據集變化的影響的分析。數據建模與數據可視化緊密相依,數據可視化可以更直觀地展示數據。

數據管理(Data Management)。數據管理是指利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發揮數據的作用,包括元數據管理、數據結構化、數據安全等內容。

數據工程(Data Engineering)。數據工程是關于數據生產和數據使用的信息系統工程。數據工程建立在大數據背景之下,是對數據庫的建設與管理的工程,其主要內容包括數據資產積累、數據運營過程、數據處理結果和應用、數據時間和咨詢等。

數據科學(Data Science)是研究數據的科學。數據科學利用統計學知識和計算機技術對專業領域的對象實行大數據分析與挖掘以及其他方式的數據處理,以使組織獲取更大的經濟效益。數據科學是一個交叉學科,在思想方法上,數據科學研究繼承了統計學的一些思想,例如在大量數據上做統計性的搜索、比較、聚類或分類等分析歸納,其結論是一種相關性,而并不一定是某種因果關系。雖然都依賴大量的計算,但數據科學與計算機模擬不同,它并非是基于一個已知的數學模型,而是用大量數據的相關性取代了因果關系以及嚴格的理論和模型,并基于這些相關性獲得新的“知識”。

以上分析僅僅是大數據先進性和商業價值的一部分。這種價值的存在有賴于人們對競爭優勢的永無止境的追求,并鼓勵企業組織采用更大的數據存儲庫,容納組織內部和外部的數據,以更好地進行趨勢揭示、數據統計、行動決策。這有助于將大數據的概念、相關工具、平臺和分析普及到技術專家和高管中。

1.3 大數據處理的關鍵——數據類型

體量大只是大數據概念的一部分。人們越來越認識到半結構化數據和非結構化數據也是大數據的重要部分,它們往往含有十分關鍵的商用信息,因而更加能夠滿足BI和商業操作的需要。而且我們應該認識到,非結構化的商業數據正在快速增長,并且在可預見的將來還會繼續增長。

數據可以分為以下三類:結構化數據、半結構化數據和非結構化數據。結構化數據通常適用于傳統的SQL語言數據庫等,其中數據按照事先定義好的業務規則被寫入表中。結構化數據通常被認為是最易處理的數據類型,因為它可以被定義和檢索,更易于訪問和過濾。

相比之下,非結構化數據通常沒有相應的BI系統與之匹配。它不能被有效地寫入表中,也無法被本地應用程序或數據庫使用。非結構化數據的典型代表就是二進制圖像文件的集合。

半結構化數據正好處于結構化數據和非結構化數據之間。半結構化數據不能按照數據庫中的表和結構化關系進行管理。然而,它也不同于非結構化數據,半結構化數據擁有標簽或其他標記方式,并以此劃分數據屬性,而且它還提供一套關于數據記錄和域的層級結構,以此來定義數據。

1.4 大數據處理的微妙之處

處理不同類型數據的方式正趨于一致,因為進行數據處理的設備和應用程序都設置了指定的XML格式,以及特殊行業所專用的XML數據標準(如保險業的ACORD標準、健康醫療產業的HL7標準)。XML技術擴展了大數據分析和集成工具可以處理的數據類型,但這些技術的轉換能力仍然受到數據復雜性和數量的限制,從而使得現有的數據類型轉換工具和數據轉換的需求不匹配。因而開啟了新類型的通用型數據類型轉換工具的大門,新的轉換工具能夠適用于各種數據類型的轉換與融合,而且不用編寫代碼,同時還能適用于任何應用程序或者平臺架構。

大數據概念的定義和相關分析工具的開發都還處于不斷改進的狀態,這些應用工具、技術、程序仍在不斷演變。然而,這并不意味著那些要從大數據集中尋求價值的人應該等待。大數據對商業運作來說太重要了,不能采取等待和觀望的方法。

真正竅門在于發現能處理多種類型數據的最優方式,同時還能保證滿足數據分析過程的目標。最好的做法就是把硬件、軟件和應用程序結合在一起形成一種可管理的程序,從而在有限時間內傳遞數據結果。

存儲也是大數據的關鍵要素。數據必須存儲在一個易于訪問且易于維護的地方。這對大多數企業和組織而言需要很高的成本,因為基于網絡的數據存儲如SANA和NAS等的購買和管理都很昂貴。

數據存儲技術已經發展成為典型數據中心常見的元素之一,因為數據存儲技術已經成熟且開始商業化。然而,現代企業不斷變化的需求仍對存儲技術施加壓力,把BI引入大數據的分析就是一個比較好的佐證。

大數據分析程序需要超出傳統存儲模式的存儲能力。傳統的存儲技術如SANS、NAS等都無法處理兆級和千兆級的非結構化數據。因此,大數據分析程序的成功運行需要一種處理大量數據的新方式,以及一種新的數據存儲平臺理念。

1.5 大數據環境下的處理分析工具

1.Apache Hadoop

Apache Hadoop(包括基于它的各種包裝,以下通稱Hadoop)是一種開源工具,它提供了處理大數據的新平臺。雖然Hadoop已經存在一段時間了,但是越來越多的企業才剛剛開始利用其功能。Hadoop平臺旨在解決大量數據造成的問題,特別是包含復雜結構化數據和非結構化數據的混合數據,這些數據不適合放在表中。Hadoop在需要深度分析和計算量大(如集群和定位)的情況下運行良好。

對于尋求利用大數據的決策者而言,Hadoop解決了與大數據相關的最常見的問題:以高效的方式存儲和訪問大量數據。

Hadoop的內在設計允許它作為一個平臺運行,它能夠在大量的分布式機器上工作。考慮到這一點,很容易看出Hadoop如何提供額外的價值:網絡管理員可以只購買大量的商用服務器,然后安裝并在每個服務器上運行Hadoop軟件。

Hadoop有助于節省與大規模數據集有關的管理成本。從操作上看,組織的數據都加載在Hadoop平臺上,Hadoop軟件把數據分解成可管理的部分,同時把數據擴展到各個服務器上。分布式存儲的特性意味著無法在一個地方獲取全部的數據。Hadoop還可以追蹤數據的存儲位置,而且能夠通過創建多個副本來維護數據。這就強化了數據存儲的彈性,因為即使某個服務器掉線或損壞,數據也可以從已知的好的副本自動復制。

Hadoop的優勢還表現在處理數據方面。例如,傳統的集中式數據庫系統存在很多限制,它需要一個連接到服務器級系統的大磁盤驅動器和具有多個處理器的驅動器。在這種情況下,數據分析就會受限于磁盤性能和處理器的數量。

而在一個Hadoop集群中,每個服務器都可以利用Hadoop的能力在整個集群中傳播工作和數據,從而參與數據的處理。換句話說,索引工作通過向集群中的每個服務器發送代碼,各個處理器就會對自己的內容進行檢索,然后結果會被統一反饋回來。這在Hadoop中稱為分布式計算,也就是代碼或操作被分布到所有處理器上,而最終的結果精簡成單一的集合。

Hadoop在處理大規模數據集時表現良好,關鍵就在于它將數據分散到各個處理器上,而且它能并行運行所有處理器來處理復雜運算問題。

然而,冒險進入Hadoop的世界并不是一種“即插即用”的體驗。為確保成功有一些先決條件:硬件要求和環境配置。首先要做的就是了解和定義分析過程。大多數首席信息官都對商務分析(BA)和BI的流程相當熟悉,并能將其與最常用的過程層(提取、轉換和加載ETL組件)相聯系,這對于構建BA或BI解決方案至關重要。大數據的分析和操作需要企業先選定所要處理的數據集,整合它們,然后進入ETL程序進行處理。在這里需要處理大量的數據,而且這些數據可能是結構化的、非結構化的,或者是來自于不同渠道的數據資源,如社交網站、數據日志、門戶網站、移動通信設備和傳感器等。

要真正實現Hadoop的價值,需要把操作程序和注意事項結合起來(例如一個容錯的集群架構,選用最貼合數據的計算方法,實現對數據集的并行計算或批處理),以及需要一個能夠支持數據從存儲到分析的企業級平臺。

我們應該明白,并非所有的企業都需要用到大數據分析。我們也應該認真思考一下Hadoop的能力和作用。Hadoop并不能夠依靠自身來完成一切,企業在搭建Hadoop平臺之前,還要考慮除了Hadoop之外需要什么組件。

例如,企業運行Hadoop平臺需要以下組件:數據管理組件HDFS和HBase、程序框架組件MapReduce和OOZIE,開發組件Pig和Hive,以及開源Pentaho。在這個小型試點項目中并不需要其他太多的硬件設備。其中硬件必需品有:兩臺多核服務器、至少24GB的運行內存,以及一個2TB的磁盤。這就足以推動一個小型試點項目運行起來。

Hadoop的有效運行和管理需要一定的專業知識和經驗,如果這方面準備不足的話,就需要信息技術管理人員與能夠提供全面技術支持的服務供應商進行合作。這方面的專業知識對于項目安全尤為重要。Hadoop、HDFS、HBase組件也需要安全防護。換句話說,進入Hadoop程序的數據仍然需要保護,以免丟失。

整體來看,Hadoop平臺是對企業大數據分析實力進行檢測的關鍵。而在完成檢測之后,如何解決平臺上大量的服務器托管問題,也就成為大數據領域所要繼續探索的內容了。

2.SmartDP

Hadoop是數據挖掘的重要工具,但是它的使用對象是一線的數據挖掘者。對非數據分析企業而言,想要利用Hadoop等開源軟件構筑自身完整的數據分析體系比較復雜,一方面是因為相關數據的缺失,另一方面則是因為搭建完善的數據分析體系并不容易。此外由于聘請高級專家的成本過高,許多公司更樂意引進數據分析工具。諸如SmartDP之類具有“自助服務”能力的大數據分析軟件的出現,為企業跨越數據鴻溝提供了一個新方式。

SmartDP是基于智能數據應用探索商業價值的平臺,它具有數據管理、數據工程和數據科學的能力,這三大能力是對數據分析平臺最基礎也是最重要的要求。

在數據管理方面,SmartDP為企業提供了元數據管理、數據存儲、數據治理、數據清洗、數據質量管理、人員權限管理與數據安全維護。數據的存儲與管理是企業數據運用的基礎,SmartDP不僅能夠協助企業進行一方數據的管理,還能充當數據的連接器,打通數據平臺和數據市場,拓展企業所需的第三方數據,為企業深度挖掘商業價值提供豐富的數據環境。

在數據工程方面,SmartDP提供了多方數據接入、數據整合、數據運營、應用接入、數據分析、數據可視化呈現、數據結論和執行建議。內外部的數據整合為企業數據價值挖掘提供了豐富的原材料,但原材料只有經過恰當的數據處理才能轉化為價值。SmartDP的特點在于幫助用戶快速實現各類操作,找到最佳的數據價值挖掘方式。

圖1-1 以SmartDP為例的數據工程應用

數據科學是企業數據運用的重點與核心,SmartDP為沒有數據管理平臺和處理能力的用戶提供了處理數據的平臺與應用。SmartDP支持算法開發、算法接入、算法組合與算法自動調整(機器學習)。人工智能與開源算法的引進,為企業的數據應用與分析提供了多樣性的選擇與多水平的應用,滿足不同企業、不同層次的需求。

從企業內部數據的產生到產品落地后產生的效果,SmartDP打通了企業數據的全鏈條,縮短了產業的價值鏈與決策鏈,許多之前必須通過外包才能解決的問題,現在可以利用內部數據分析平臺完成決策,為企業提供直接可操作的結果。

從具體的產品形態看,目前SmartDP以DMP為基礎,整合一方與三方數據,提供了如數據管家、用戶管家、脈策、酷屏、人際地圖等一系列產品應用。數據管家完成了數據的管理,從業務源頭開始,對企業內外部的數據進行梳理與整合;脈策結合用戶線上使用行為與線下活動軌跡,為房地產廠商提供最優的選址,幫助企業進行決策;酷屏能為企業提供簡潔清晰的可視化圖像,為用戶提供直觀展示;人際地圖從用戶的職、住、娛三個層面挖掘用戶的行為軌跡,分析用戶的消費水平與偏好,為企業營銷提供最直接的決策推薦信息。而這些都只是SmartDP中的部分功能,外部算法與應用的接入意味著SmartDP能夠實現更豐富的功能。

1.6 智能數據時代到來

智能數據就是有效融合了人工智能和人類智慧的數據,這樣的數據才能持續產生商業價值。這個名詞的出現揭示了數據、人和機器三者之間的有機聯系。這種有機聯系賦予數據更多價值,更賦予數據心智。現階段的“數據”與以往的數據已經有很大不同。數據中包含的信息量越來越大、維度越來越多,從圖像、聲音等富媒體數據,逐漸過渡到人的動作、姿態、行為軌跡,再加上地理位置、天氣、社會群體行為等,以往處理數據的思路已經難以適應“數據”本身發展的速度。一個融合人類智慧、人工智能以及海量非結構化數據的智能數據時代已經來臨。因此,“發展多年的‘大數據’即將進入‘下半場’”。

智能數據時代最重要的三個要素是:數據、人工智能、人類智慧。這三者之間的關系又是什么?我們可以做個比喻。數據相當于什么?人的血液。人工智能相當于什么?人的心臟。心臟需要靠血液供給,但同時它還會根據人的心跳把血液再輸回給人體,從此往復循環,形成一個正循環。人類智慧是什么?大腦,這是不可替代的。所有這一切構成了智能數據時代的三個要素。數據的積累,推動了人工智能的進步(數據量越大,訓練出來的人工智能越強大)和人類智慧的積累(通過對數據的洞察和分析,人類經驗得以增強,智慧得以積累),從而產生了更多的應用場景;應用場景的增加,導致數據在量級和維度上進一步變化,人工智能不一定能夠處理所有的變化,所以需要人類智慧的介入,調整人工智能以適應新的數據處理方式,從而使人工智能得以進步,并且也進一步積累了人類智慧——這是一個正向的循環。數據、人工智能和人類智慧相互促進,迎來了新的智能數據時代。

缺乏人類智慧的持續介入,人工智能對數據的加成作用會隨著數據的變化逐步弱化甚至失效;缺乏人工智能,人類無法處理如此海量的數據;缺乏數據,人工智能無法存在,人類智慧的積累也會放緩。比如通過人的有監督的訓練,可以獲得體現人姿態動作的手機傳感器的訓練數據集,這是體現人類智慧的數據。這些數據通過人工智能的算法分析,然后經過人類智慧的參數調整和驗證,可以趨近反映人的真實動作和姿態,實現情景感知能力。具有情景感知能力的手機,可以提供給應用開發者更多的應用場景,比如運動健身、金融風控、物流管理、娛樂體驗等,每個領域出現的新的用戶體驗,也會產生更多的數據,讓人類智慧繼續積累,讓人工智能更加強大。又比如,原始數據進入SmartDP以后,需要經過數據架構師的人類智慧的分析和整理,通過人工智能的輔助,才能得到干凈的或者建模的(比如圖)數據。這些數據在使用的時候也必須結合人類智慧和人工智能。如果原始數據沒有經過運營,垃圾進垃圾出,就不是智能數據。甚至數據還需要持續的運營,如果運營中斷,有可能就慢慢地不智能了(過期了)。再比如在行業領域,我們通過咨詢(人類智慧,積累了行業的經驗)幫助客戶梳理數據的脈絡,采集必要的數據,再通過人工智能來滿足業務需求,解決場景化的問題,同時又產生更多的數據。

主站蜘蛛池模板: 张家港市| 恩施市| 凤冈县| 阿拉善盟| 庆城县| 怀来县| 临湘市| 雷波县| 辰溪县| 会理县| 定结县| 丹棱县| 介休市| 海宁市| 新沂市| 柳河县| 柳林县| 久治县| 大邑县| 恩施市| 瑞安市| 曲阳县| 山丹县| 阜康市| 天峨县| 博罗县| 和龙市| 叶城县| 永州市| 余江县| 衡水市| 平乐县| 阿克苏市| 淮南市| 连平县| 屯昌县| 禄丰县| 浑源县| 乌拉特前旗| 沁源县| 扬州市|