官术网_书友最值得收藏!

基本處理模型

大數(shù)據(jù)技術(shù)是一種幫助數(shù)據(jù)實(shí)現(xiàn)價(jià)值的技術(shù)手段。挖掘出數(shù)據(jù)中的價(jià)值,才是大數(shù)據(jù)的應(yīng)用目標(biāo)。大數(shù)據(jù)技術(shù)雖然是新興的數(shù)據(jù)處理技術(shù),但它與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)相比,數(shù)據(jù)處理的核心模型并沒(méi)有發(fā)生多大的變化。以前做過(guò)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)管理等工作的人轉(zhuǎn)行做大數(shù)據(jù),就會(huì)發(fā)現(xiàn)后者僅僅是處理步驟對(duì)應(yīng)的技術(shù)產(chǎn)生了變化。

傳統(tǒng)的數(shù)據(jù)類問(wèn)題的解決可以分為四個(gè)基本步驟:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和數(shù)據(jù)使用。前三個(gè)步驟都很直接,而所謂數(shù)據(jù)使用則有不同的表現(xiàn)形式:可能是用圖表對(duì)數(shù)據(jù)進(jìn)行展示;也可能是利用分析結(jié)果做出某種決策;還有可能帶來(lái)另一輪的采集、存儲(chǔ)、分析、使用過(guò)程,即在前一輪分析的基礎(chǔ)上對(duì)結(jié)果進(jìn)行新一輪處理。以前文提到的監(jiān)控視頻數(shù)據(jù)為例,第一輪采集的數(shù)據(jù)可能是視頻流本身。這些視頻數(shù)據(jù)和元數(shù)據(jù)(例如采集時(shí)間、采集地點(diǎn))需要被保存下來(lái),然后根據(jù)不同需求做出不同的分析,例如分析其中車輛的信息、車牌號(hào)碼、是否違章等。至于這些數(shù)據(jù)的分析結(jié)果,可以是按時(shí)間統(tǒng)計(jì)的車輛通行量的圖表;也可以是提交給交通管理部門的違章信息;還可以根據(jù)不同時(shí)間和不同位置的通行情況進(jìn)一步分析車輛,從而畫出車輛的運(yùn)行軌跡圖,或者分析道路擁堵情況。

這四個(gè)步驟也構(gòu)成了大數(shù)據(jù)處理的基本模型(如圖1-1所示)。

圖1-1 大數(shù)據(jù)處理的基本步驟

這個(gè)模型同具體的技術(shù)沒(méi)有任何關(guān)系,只是一個(gè)概念。不過(guò),這個(gè)概念體現(xiàn)了大數(shù)據(jù)處理的必要元素。其中數(shù)據(jù)的采集源可以有很多種,可以是工控設(shè)備的監(jiān)控,可以是物聯(lián)網(wǎng)的探頭,也可以是日志信息或者其他公司的商業(yè)智能(Business Intelligence,BI)數(shù)據(jù),當(dāng)然也可以是某個(gè)大數(shù)據(jù)系統(tǒng)的分析結(jié)果。數(shù)據(jù)存儲(chǔ)要考慮的是采集到的數(shù)據(jù)的保存問(wèn)題。當(dāng)然,不保存原始數(shù)據(jù)也是一種存儲(chǔ)策略。根據(jù)需求不同,數(shù)據(jù)分析采用的形式也千差萬(wàn)別。有的也許是統(tǒng)計(jì)、有的也許需要做規(guī)劃建模,而有的情況下則需要引入深度學(xué)習(xí)和其他人工智能處理方式。

從另一個(gè)維度看,這個(gè)數(shù)據(jù)處理的概念模型還可以被看作“數(shù)據(jù)—信息—知識(shí)—智慧”金字塔模型。它是一個(gè)量級(jí)由大至小、價(jià)值由低到高的數(shù)據(jù)模型。我們把大數(shù)據(jù)處理步驟的概念模型,(在一定程度上)對(duì)應(yīng)放到這個(gè)金字塔數(shù)據(jù)模型當(dāng)中,得到圖1-2。

圖1-2 數(shù)據(jù)價(jià)值的金字塔模型

對(duì)應(yīng)圖1-1中的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)使用四個(gè)步驟,圍繞著數(shù)據(jù)價(jià)值的提升,我們需要對(duì)數(shù)據(jù)進(jìn)行采集、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)/分析和深度挖掘。這四個(gè)步驟對(duì)應(yīng)于圖1-2金字塔模型的四個(gè)步驟,更加偏向于工程應(yīng)用。其中的導(dǎo)入/預(yù)處理是數(shù)據(jù)存儲(chǔ)的前置核心步驟,而深度挖掘是為了提升數(shù)據(jù)價(jià)值屬性和未來(lái)使用的常規(guī)方法。

采集

大數(shù)據(jù)的采集一般分為系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集和其他數(shù)據(jù)采集。目前很多公司都有自己的海量數(shù)據(jù)采集工具,均采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求,如Chukwa、Flume、Scribe、Kafka等工具也常常用于構(gòu)造數(shù)據(jù)處理總線。網(wǎng)絡(luò)數(shù)據(jù)采集指通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。對(duì)于網(wǎng)絡(luò)流量的采集可以使用深度報(bào)文檢測(cè)(Deep Packet Inspection,DPI)或深度/動(dòng)態(tài)流檢測(cè)(Deep/Dynamic Flow Inspection,DFI)等帶寬管理技術(shù)進(jìn)行處理。其他數(shù)據(jù)采集,如企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過(guò)與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。

導(dǎo)入/預(yù)處理

對(duì)海量數(shù)據(jù)進(jìn)行分析時(shí),還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入一個(gè)大型分布式數(shù)據(jù)庫(kù)或者分布式文件系統(tǒng),并且可以在導(dǎo)入的同時(shí)做一些簡(jiǎn)單的清洗和預(yù)處理工作。在導(dǎo)入時(shí)使用Storm和Spark Streaming來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,滿足部分業(yè)務(wù)的實(shí)時(shí)或準(zhǔn)實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常高達(dá)百兆字節(jié),甚至千兆字節(jié)級(jí)別。

統(tǒng)計(jì)/分析

統(tǒng)計(jì)分析的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源和I/O會(huì)有極大的占用。可利用分布式數(shù)據(jù)庫(kù)或者分布式計(jì)算集群來(lái)對(duì)海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足常見(jiàn)的分析需求。在這方面,一些實(shí)時(shí)性需求會(huì)用到GreenPlum、Exadata等,而一些批處理或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。

挖掘

數(shù)據(jù)挖掘主要是對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,同時(shí)滿足一些高級(jí)別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的Kmeans,用于統(tǒng)計(jì)學(xué)習(xí)的支持向量機(jī)(Support Vector Machines,SVM)和用于分類的樸素貝葉斯(Na?ve Bayes)。數(shù)據(jù)挖掘主要使用的工具有Hadoop的Mahout和Spark的MLlib等。

主站蜘蛛池模板: 鄂托克前旗| 博罗县| 陈巴尔虎旗| 江口县| 大庆市| 隆回县| 敖汉旗| 大连市| 长汀县| 绥中县| 内江市| 永定县| 乡城县| 佛山市| 当阳市| 星子县| 新干县| 武城县| 临安市| 林周县| 合阳县| 原平市| 嘉兴市| 兰溪市| 新兴县| 惠东县| 攀枝花市| 绥芬河市| 绥中县| 宁明县| 大荔县| 颍上县| 丰顺县| 富源县| 哈密市| 张家川| 文山县| 石楼县| 崇左市| 阆中市| 阿拉善盟|