官术网_书友最值得收藏!

1.1 大數據概念談

1.1.1 大數據的定義

什么是大數據?似乎一夜之間各行各業都開始提大數據。對于鋪天蓋地的大數據概念,也許你最常聽到的是關于大數據的4個V的特點定義:Volume(體量大)、Variety(模態多)、Velocity(變化快)、Value(價值高)。這4個V的定義聽起來是不是依舊覺得有些抽象?

事實上,自人類開化以來便有了數字(Numbers),而計算機技術多年的發展也一直在研究如何對數據(Data)進行記錄和處理,為何今天我們再來討論數據,并且冠以“大數據”這一新概念?實際上,隨著技術的發展和普及,爆發出多方面的數據來源(例如智能手機的普及就產生了海量的手機用戶數據等),今日人類產生的數據量之大、數據形式之多變的特點變得愈發突出,與此同時,當今計算機的算法、硬件處理能力的增加,也給數據的處理帶來了更豐富的可能性。由此,引發了人們對數據中所蘊藏的價值的探究興趣,而這一系列的探究就被歸納到了“大數據”的范疇內。

在此形勢下,如果要給大數據做一個明確的定義,可以從狹義、廣義、泛義、偽義4個維度來進行。

狹義大數據:狹義大數據僅關注大數據的技術層面,即對大量、多格式的數據進行并行處理,以及實現對大規模數據的分塊處理的技術。狹義大數據范疇內,所謂的“大”其實是相對的,并不能明確地界定出多大的數據量就是大數據,而是要由計算機的處理能力來判定所面對的數據是否為大數據。當數據量超出了當前的常規處理能力所能應付的水平時,就可稱之為“大”。作者常說,做成一件事有三種方法:①Work Hard; ②Work Smart; ③Getting Help。其實,狹義大數據的概念又何嘗不正是符合這三種方法呢。首先,為了處理大數據,對當前的計算系統進行優化和發展,采用擁有更快、更多的處理器和更大內存的計算機,提升其數據處理能力,這就是Work Hard。值得注意的是,提升處理能力終將遭遇到物理極限,例如42U的機柜也就那么大。一味地提升處理能力,也伴隨著成本的大幅增加,做大數據并不是一定要搞超算,而應當對成本和性能進行平衡,以使得經濟效益最大化。第二,對數據的處理需要研究和改進各種算法,在算法上下功夫,就是Work Smart。并非有足夠的Hard和Smart就能解決所有問題,有時還是會遇到瓶頸,在這種情況下就得借助外部的、集體的力量才行,這體現在大數據中就成了集群(Cluster)的概念。對于超大規模數據集的運算,可聚集群體的力量來分開、并行處理,即為Getting Help。

廣義大數據:廣義的大數據實際上就是信息技術。它是指一種服務的交付和使用模式,指從底層的網絡,到物理服務器、存儲、集群、操作系統、運營商,直到整個數據中心,由這各個環節串聯起來,最終提供的數據服務。并且,當數據服務所涉及的數據量變大后,就被冠以了“大數據”的概念。廣義大數據可以被視為和數據相關的所有的產品以及服務的集合,并且這里的數據服務通常需要有數據分析引擎做支撐。

泛義大數據:由于數據的重要性遍及各個行業,隨之出現了司法大數據、政務大數據、教育大數據等,這些各行各業的大數據服務就成了泛義上的大數據。

以上的三項定義具有同等的重要性,對大數據而言,每一個定義范圍內的內容都有研究的必要,并且三項定義合并起來就構成了大數據生態系統(Ecosystem)。

偽義(Pseudo)大數據:一個傳播甚廣的大數據應用例子是,當我們看到一個國外的小伙,一手抱著尿不濕、一手提著啤酒,我們就得出了這樣的結論——這是沃爾瑪對大數據分析的結果,因此商家特意將啤酒同尿不濕的貨架緊挨在一塊兒,以提高啤酒的銷量。事實上,這恰恰就是一個偽義大數據的典型例子,現實中的沃爾瑪從未有將這兩種商品擺放在一起的策略。而介紹大數據的材料往往會借用不少這樣的例子,起到一種炒作的效果,形成了一種偽義大數據的概念。并不是說偽義大數據一定不好,它體現了市場對大數據的追捧。一個新的事物,無論是大數據還是云計算,要形成氣候,市場的追捧其實是必要的,但對于這些新事物的從業者而言,就需要格外清楚要做的究竟是什么,否則就會變成Blind leads the blind。

除上述4個層面的大數據定義外,可以說,大數據的內涵是多方面的,不是給“數據”前面加個“大”字就成了大數據,它有很具體的特征。圖1-1列出了大數據的16個特征。其中,量大,含大量可執行代碼,研發需要的人才結構復雜,這是現在的技術完全有能力處理的。至于結構、類型眾多,顯示媒體介質多,來源多、標準不一,動態性強,社會性強,時空依賴關系大這6個特征,以現有的技術可以處理,但有一定的難度。當然還有很多數據特征是現有技術能力無法處理的,需要進一步研究與探索。大數據所需要研究的內容如圖1-2所示。

圖1-1 大數據的特征

圖1-2 大數據需要研究的內容

值得注意的是大數據與云計算的關系,狹義的虛擬化云計算和大數據代表了計算的兩個極端。云計算是指單臺機器的硬件處理能力太強了,通常的應用一般用不完,所以將其“分”為多臺小機器來用。大數據則是指計算任務太大了,一臺機器搞不定,需要多臺來共同完成。也就是說,云計算是把大“化”小,而大數據則是把大“合”為更大(見圖1-3)。

圖1-3 狹義大數據與狹義云計算的關系

數字來源于生活。大數據的這個“大”是相對的,并且離開了上下文是毫無意義的。TB級是一個大型圖書館所記載的信息量等級,或相當于一座有百萬人口的縣城全體居民一年活動的信息量級,而相比于金融、氣象、軍事、航空航天、醫學等領域,這可能就算不上大了。計算處理能力按照摩爾定律迅速增長,帶寬按照基爾德定律在變寬,今天聽起來很大的數據量,若干年以后可能就不大了。“軟(頭腦)”件、硬件總是手拉手地前進,好比安迪比爾定律:英特爾能提供多大的硬件處理能力,微軟的軟件都能給它消耗殆盡。某種意義上來講,軟件總是超前于硬件。下一個輪回,當數據量超出了發展中的硬件的處理能力時,就會有新的“大”數據,也就是硬件又一次處理不了的數據。

特別要說明的是,大數據也好,云計算也好,都是當下這個時間點所特有的名詞,是當前IT技術發展水平及業務需求的反映。隨著技術的飛速提升,這些技術將會逐漸融入日常生活,成為常態,屆時,可能不再有人專門提及今天很火的名詞——“云計算”和“大數據”,而是將其視為常規的、必不可少的基礎技術,“云計算”就成了“計算”,“大數據”則成了“數據”。

1.1.2 大數據發展現狀

從宏觀政策方面來看,美、英、日、澳等世界發達國家高度重視大數據產業,當前正通過戰略引領、政府投入、企業推進、應用建設和政策保障等措施大力推動大數據技術和產業的發展,意圖搶占戰略主動權和發展先機。與此同時,我國政府也在陸續出臺政策,使得國內的大數據發展環境得到持續完善,諸如《關于促進大數據發展的行動綱要》等文件的出臺,也標志著我國已經進入大數據全面、高速的發展階段。不過當前對于各家打算進軍大數據領域的公司而言,卻存在著雖有較明確的進軍意圖,但還缺乏成體系的大數據發展戰略布局,整體尚處在初期階段的現狀。

在大數據技術方面,目前主要的技術體制和技術標準都由國外的技術聯盟和大型公司控制著,例如,Apache基金會的Hadoop、UC Berkeley的Spark等系列軟件在某種程度上已經成為了大數據計算處理方面的事實標準。國內的研究則以技術吸收、消化再創新為主。目前,國內的大型企業雖在大數據應用技術創新方面進行了較多的布局,但在基礎性、共性的大數據技術研究上的投入還較少,且研究力量較為分散,未能形成優勢。

在大數據產品方面,國內以借用為主,對國外的研究成果及開源產品有較高的依賴程度。一方面,國內相關行業的企業化發展腳步很快,涌現了BAT等與大數據業務有關聯的優秀的企業級產品,但另一方面,面向工業的自主可控的大數據平臺技術的研發仍為空白。同時,不少相關的大數據產品存在重復研發問題,市場未形成優勢互補,反而造成了人才和資源的浪費。

在大數據應用方面,國內以互聯網、電子商務為代表的行業大數據應用正迅猛發展,并在逐步向傳統行業滲透,行業大數據分析及應用創新也正處于涌現階段。面向“互聯網+”的大數據應用鏈及其相關的傳統產業正面臨著激烈的市場競爭,各家大公司都希望能在對于數據資源的獲取與掌控方面占據優勢。

1.1.3 大數據建設需求分析

對大數據而言,其建設需求并不單一,已經逐步滲透到了國家建設的各個分支企業和部門之中,主要可分為以下幾個方面。

首先,從戰略意義的角度來講,各企業對自己的大數據業務技術及應用發展進行規劃的意義重大。隨著網絡、傳感器技術的發展,人類社會進入大數據時代的步伐已不可阻擋,大數據甚至將成為國家層面的一種重要戰略資源,是國家之間繼海、陸、空、天、網之后的另一個博弈空間,一個國家擁有數據的規模、活性及解釋運用能力將成為綜合國力的重要組成部分,因此,布局大數據發展關乎國家安全和國家發展,具有重要的戰略意義。

然后,傳統的大型企業對自主可控的大數據技術的需求十分迫切,往往需要搶先布局核心領域的大數據技術,積極推動大數據處理平臺的研發,為大數據系統的安全、可靠運行提供根本保障,并結合主要業務的發展趨勢,做好應用與轉化,不斷提高從數據到決策的能力,實現由數據優勢開始逐步向決策優勢的轉化,以確保在新一輪信息化浪潮中贏得主動,占得先機。

接著,以大數據技術發展來支撐各企業大數據產業發展的需求迫切。對于承擔城市綜合管理、公共服務、電子商務、交通運輸、企業管理等領域大量的信息系統研制任務的公司而言,其面臨著產業升級的激烈競爭。大數據技術作為當前處理海量數據的唯一有效方法,為新型民用信息系統在實時、高效、安全、擴展能力方面提供了強有力的支撐。因此,這些企業需要結合既有產業與新興規劃產業,推進產業布局,積極規劃大數據在智能交通、智慧城市、公共安全、物聯網等相關產業的發展,形成它們的新的經濟增長點。

最后,大數據技術本身涉及多個技術層面,會串聯起一系列不同的理論和應用,因此,企業間對技術進行協作開放,共建新IT的需求也是同大數據的建設步調相一致的。各家企業在大數據領域內的優勢各不相同,有機結合可以形成豐富的大數據技術產品與應用服務,勢必能為發展自己的業務帶來優勢,也同時能推動大數據行業整體的進步。因此,依托各個大數據企業所長,建立大數據資源平臺,整合共性的大數據成果、產品、工具,通過開放的機制實現共享,接軌先進的技術,配套相關機制,形成合力來打造良性的生態,這同樣是大數據建設的需求。

1.1.4 大數據建設目標

對于想要使用大數據技術的各家企業而言,其對大數據進行研究和建設的目標應當是:統籌企業內的數據及技術資源,并借助外部資源,以打造企業自身的大數據平臺及應用為目標,開展企業大數據技術共享平臺建設,實現數據資源與共性技術產品的發布、共享、管理和激勵。在打造自主的大數據處理平臺的同時,結合企業的特點,可打造相應的領域應用模型以及軟件工具,形成具備自主知識產權的大數據生態系統。同時,建立起企業的大數據技術及產品規范,并培養起大數據技術和產品的維護、應用和服務團隊,以保障大數據業務的開展。最終應當形成技術理論和應用實踐相結合的自主、創新的大數據平臺。總的來說,“了解數據,管理數據,共享數據,使用數據”是大數據建設的目標。

1.1.5 機器學習與人工智能

談及大數據,很容易想到更深一層的人工智能及機器學習的話題上。本書雖不會大量涉及這一領域的內容,但是有必要讓讀者對這些概念有一個正確的印象。在此,僅簡單舉一示例,以形象地說明機器學習為何物。

想要在學習上取得成功,你可以借助下面這個演示所揭示的一個簡單原則。首先,請用幾秒鐘迅速記憶下面的這一串字符(來自津巴多的心理學書籍):

IBMUFOFBICIA

現在請不要看書,盡可能地將你記住的字母按順序寫在紙上。

許多人能正確記憶5~7個字母,然而有些人卻能夠按順序正確記憶所有字母。這些不尋常的人是如何做到的呢?原來他們在看似雜亂的字母序列中找到了便于記憶的模塊(如果仔細觀察,你可以在這一串字母中找到一些熟悉的字母組合,比如IBM、UFO、FBI和CIA)。找出這些模塊能夠有效地提高記憶的效果,因為你可以利用那些已經存儲在大腦里的信息。這樣,你需要記憶的只是4個整塊信息,而不是12個不相關的字母。

上述做法不僅記住了字串,同時也節省了腦力,這就是MapReduce的工作機制。該原則同樣可以被運用到大數據處理上,尤其是機器學習和人工智能中。計算機是一個對數據進行編碼、存儲和讀取的處理系統。對于計算機而言,如果把所有知識劃分為彼此沒有聯系的部分進行單獨記憶、機械式的學習,那要學好是很困難的。但是,如果在各種知識之中尋找聯系,那么學習就會變得簡單高效許多,這正是人工智能和機器學習所要研究的內容所在。

主站蜘蛛池模板: 珠海市| 弥勒县| 全椒县| 施甸县| 和田县| 布尔津县| 应用必备| 丹凤县| 青海省| 搜索| 江安县| 渝北区| 普宁市| 诸暨市| 泸水县| 兴安县| 阜平县| 遵义县| 册亨县| 金平| 甘洛县| 原阳县| 尉犁县| 通江县| 久治县| 扶绥县| 龙胜| 福建省| 兴仁县| 类乌齐县| 肥西县| 民丰县| 内丘县| 淳安县| 文登市| 徐闻县| 重庆市| 临城县| 龙口市| 南丰县| 什邡市|