官术网_书友最值得收藏!

1.3 大數據的發展

大數據本身并不是一個新的概念。特別是僅僅從數據量的角度來看的話,大數據在過去就已經存在了。例如,波音的噴氣發動機每30min就會產生10TB的運行信息數據,安裝有4臺發動機的大型客機,每次飛越大西洋就會產生640TB的數據。世界各地每天有超過2.5萬架的飛機在工作,可見其數據量是何等龐大。生物技術領域中的基因組分析,以及以NASA(美國國家航空航天局)為中心的太空開發領域,從很早就開始使用十分昂貴的高端超級計算機來對龐大的數據進行分析和處理了。 

現在和過去的區別之一,就是大數據已經不僅產生于特定領域中,而且還產生于人們每天的日常生活中,微信、Facebook(臉譜)和Twitter(推特)等社交媒體上的文本數據就是最好的例子。而且,盡管人們無法得到全部數據,但大部分數據可以通過公開的API(應用程序編程接口)相對容易地進行采集。在B2C(商家對顧客)企業中,使用文本挖掘(text mining)和情感分析等技術,就可以分析消費者對自家產品的評價。 

1.3.1 硬件性價比提高與軟件技術進步

計算機性價比的提高,磁盤價格的下降,利用通用服務器對大量數據進行高速處理的軟件技術Hadoop的誕生,以及隨著云計算的興起,甚至已經無須自行搭建這樣的大規模環境—上述這些因素大幅降低了大數據存儲和處理的門檻。因此,過去只有像NASA這樣的研究機構及屈指可數的幾家特大企業才能做到對大量數據的深入分析,現在只需極小的成本和時間就可以完成。無論是剛剛創業的公司還是存在多年的公司,也無論是中小企業還是大企業,都可以對大數據進行充分利用。 

1.計算機性價比的提高

承擔數據處理任務的計算機,其處理能力遵循摩爾定律,一直在不斷進化。所謂摩爾定律,是美國英特爾公司共同創始人之一的高登?摩爾(Gordon Moore,1929—)于1965年提出的一個觀點,即“半導體芯片的集成度,大約每18個月會翻一番”。從家電賣場中所陳列的計算機規格指標就可以一目了然地看出,現在以同樣的價格能夠買到的計算機,其處理能力已經和過去不可同日而語了。 

2.磁盤價格的下降

除了CPU性能的提高,硬盤等存儲器(數據的存儲裝置)的價格也在明顯下降。2000年的硬盤驅動器平均每GB容量的單價約為16~19美元,而現在只有7美分(換算成人民幣的話,就相當于4~5角),相當于下降到了10年前的230~270分之一。 

變化的不僅僅是價格,存儲器在重量方面也有了巨大進步。1982年日立公司最早開發的超1GB級硬盤驅動器(容量為1.2GB),重量約為250lb(約合113kg)。而現在,32GB的微型SD卡重量卻只有0.5g左右,技術進步的速度相當驚人。 

3.大規模數據分布式處理技術Hadoop的誕生

Hadoop是一個可以在通用服務器上運行的開源分布式處理軟件,它的誕生成為目前大數據浪潮的第一推動力。如果只是結構化數據不斷增長,用傳統的關系型數據庫和數據倉庫,或者其衍生技術,就可以進行存儲和處理了,但這樣的技術無法對非結構化數據進行處理。Hadoop的最大特征就是能夠對大量非結構化數據進行高速處理。 

1.3.2 云計算的普及

如今,很多情況下,大數據的處理環境并不一定要自行搭建。例如,使用亞馬遜的云計算服務EC2(Elastic Compute Cloud)和S3(Simple Storage Service),就可以在無須自行搭建大規模數據處理環境的前提下,以按用量付費的方式,來使用由計算機集群組成的計算處理環境和大規模數據存儲環境。此外,在EC2和S3上還利用預先配置的Hadoop工作環境提供了EMR(Elastic Map Reduce)服務。利用這樣的云計算環境,即使是資金不太充裕的創業型公司,也可以進行大數據的分析。 

實際上,在美國,新的IT創業公司如雨后春筍般不斷涌現,它們利用亞馬遜的云計算環境,對大數據進行處理,從而催生出新型的服務。這些公司有網絡廣告公司Razorfish、提供預測航班起飛晚點等航班預報服務的FlightCaster和對消費電子產品價格走勢進行預測的Decide.com等。 

1.Decide.com 

Decide.com是一家成立于2010年的創業型公司,它提供的服務主要是告訴大家數碼相機、計算機、智能手機和電視機等數碼產品什么時候購買最劃算。 

Decide.oom每天要從數百家網上商城中收集超過10萬條家電和數碼產品的價格數據,同時還會搜索關于這些產品的博客和新聞報道,以獲取是否會有新型號準備發售等信息。這些數據的數據量每天超過25GB,整體用于分析的數據量則高達100TB。這些收集到的數據會被發送到亞馬遜的云計算平臺,并通過Hadoop來進行統計和分析工作。 

Decide.com競爭力的源泉,來自公司中4位計算機科學博士所開發的算法,這種算法可以對家電和數碼產品價格的上漲或下降走勢做出高精度的預測。 

2.FlightCaster 

FlightCaster創立于2009年,它所提供的服務是在航空公司發出正式通知6h之前,就能夠對航班晚點做出預報。 

FlightCaster的預報是基于交通統計局的數據、聯邦航空局航空交通管制系統指令中心的警報、FlightStats(一個發布航班運營狀況信息的網站)的數據和美國氣象局的天氣預報等所發布的。這些數據都是公開數據,若有需要的話,任何人都可以獲得。 

基于這些數據,FlightCaster可以做出類似“正點概率為3%,輕微晚點(60min以內)概率為14%,晚點60min以上概率為83% ”這樣的預測。如果預報顯示該航班有很大概率會晚點,還會給出相應的理由,如“目的地因暴雨天氣風力較強”“(往返飛行的)到達航班已經晚點72min”等。 

該公司服務的強項在于,可以對過去10年的統計數據加上實時數據所構成的龐大數據,通過其擁有專利的人工智能算法進行分析,做出準確率高達85%~90%的航班晚點預測。 

FlightCaster是一家創業型公司,為了控制初期投資,其龐大的數據處理都是在亞馬遜Amazon)的云計算平臺(EC2和S3)上搭建的Hadoop集群中完成的。這個Hadoop集群是Cloudera公司提供的一項名為AMI(Amazon Machine Image)的服務,而FlightCaster正是利用了這個集群上的機器學習功能來進行數據挖掘的。 

另一方面,其前端部分是在Heroku公司(被Salesforce.com收購)的云計算平臺上開發的,Heroku提供了Ruby on Rails(開發框架)的PaaS(Platform as a Service)服務,這是部署在EC2、S3等亞馬遜云平臺上的。 

此外,該公司還運用了大量的新技術,如將Hadoop進行抽象化的高級工作流語言Casoading,以及用Java編寫的Lisp方言動態語言Clojure等,對于技術極客 ../Text/Chapter01_0006.xhtml#foot2 們來說還是相當有吸引力的。 

1.3.3 大數據作為BI的進化形式

要認識大數據,還需要理解BI(Business Intelligence,商業智能)的潮流和大數據之間的關系。對企業內外所存儲的數據進行組織性、系統性的集中、整理和分析,從而獲得對各種商務決策有價值的知識和觀點,這樣的概念、技術及行為稱為BI。大數據作為BI的進化形式,充分利用后不僅能夠高效地預測未來,也能夠提高預測的準確率。 

BI這個概念是1989年由時任美國高德納(Gartner)咨詢公司的分析師Howard Dresner提出的。Dresner當時提出的觀點是,應該將過去100%依賴信息系統部門來完成的銷售分析、客戶分析等業務,通過讓作為數據使用者的管理人員及一般商務人員等最終用戶親自參與,從而實現決策的迅速化及生產效率的提高。 

BI的主要目的是分析從過去到現在發生了什么、為什么會發生,并做出報告。也就是說,是將過去和現在進行可視化的一種方式。例如,過去一年中商品A的銷售額如何,它在各個門店中的銷售額又分別如何。 

然而,現在的商業環境變化十分劇烈。對于企業今后的活動來說,在將過去和現在進行可視化的基礎上,預測出接下來會發生什么顯得更為重要。也就是說,從看到現在到預測未來,BI也正在經歷著不斷的進化,如圖1-6所示。 

978-7-111-53304-7-Chapter01-6.jpg

圖1-6 BI(商業智能)的發展

要對未來進行預測,從龐大的數據中發現有價值的規則和模式的數據挖掘(Data Mining)是一種非常有用的手段。為了讓數據挖掘的執行更加高效,就要使用能夠從大量數據中自動學習知識和有用規則的機器學習技術。從特性上來說,機器學習對數據的要求是越多越好。也就是說,它和大數據可謂是天生一對。一直以來,機器學習的瓶頸在于如何存儲并高效處理學習所需的大量數據。然而,隨著硬盤單價的大幅下降、Hadoop的誕生,以及云計算的普及,這些問題正逐步得到解決。現實中,對大數據應用機器學習的實例正在不斷涌現。 

1.3.4 從交易數據分析到交互數據分析 

對從像“賣出了一件商品”“一位客戶解除了合同”這樣的交易數據中得到的“點”信息進行統計還不夠,人們想要得到的是“為什么賣出了這件商品”“為什么這位客戶離開了”這樣的上下文(背景)信息。而這樣的信息需要從與客戶之間產生的交互數據這種“線”信息中來探索。以非結構化數據為中心的大數據分析需求的不斷高漲,也正是這種趨勢的一個反映。 

例如,像亞馬遜這種運營電商網站的企業,可以通過網站的點擊流數據,追蹤用戶在網站內的行為,從而對用戶從訪問網站到最終購買商品的行為路線進行分析。這種點擊流數據,正是表現客戶與公司網站之間相互作用的一種交互數據。 

舉個例子,如果知道通過點擊站內廣告最終購買產品的客戶比例較高,那么針對其他客戶,就可以根據其過去的點擊記錄來展示他可能感興趣的商品廣告,從而提高其最終購買商品的概率。或者,如果知道很多用戶都會從某一個特定的頁面離開網站,就可以下工夫來改善這個頁面的可用性。通過交互數據分析所得到的價值是非常大的。 

對于消費品公司來說,可以通過客戶的會員數據、購物記錄和呼叫中心通話記錄等數據來尋找客戶解約的原因。最近,隨著“社交化CRM”呼聲的高漲,越來越多的企業都開始利用微信、Twitter等社交媒體來提供客戶支持服務。上述這些都是表現與客戶之間交流的交互數據,只要推進對這些交互數據的分析,就可以越來越清晰地掌握客戶離開的原因。 

一般來說,網絡上的數據比真實世界中的數據更加容易收集,因此來自網絡的交互數據也得到了越來越多的利用。不過,今后隨著傳感器等物態探測技術的發展和普及,在真實世界中對交互數據的利用也將不斷推進。 

例如,在超市中,可以將由植入購物車中的IC標簽收集到的顧客行動路線數據和POS等銷售數據結合,從而分析出顧客買或不買某種商品的理由,這樣的應用現在已經開始出現了。或者,也可以像前面講過的那樣,通過分析監控攝像機的視頻資料來分析店內顧客的行為。以前也并不是沒有對店內的購買行為進行分析的方法,不過,那種分析大多是由調查員肉眼觀察并記錄的,這種記錄是非數字化的,成本很高,而且收集到的數據也比較有限。 

進一步講,今后更為重要的是對連接網絡世界和真實世界的交互數據進行分析。在市場營銷的世界中,O2O(Online to Offline,線上與線下的結合)已經逐步成為一個熱門的關鍵詞。所謂O2O,就是指網絡上的信息(在線)對真實世界(線下)的購買行為產生的影響。舉例來說,很多人在準備購買一種商品時會先到評論網站去查詢商品的價格和評價,然后再到實體店去購買該商品。 

在O2O中,網絡上的哪些信息會對實際來店顧客的消費行為產生關聯?對這種線索的分析,即對交互數據的分析,顯得尤為重要。 

主站蜘蛛池模板: 南城县| 上杭县| 元阳县| 陵水| 凤庆县| 卫辉市| 左贡县| 寿宁县| 上虞市| 崇州市| 山丹县| 昆山市| 南昌县| 隆安县| 阜新| 灌云县| 虎林市| 耒阳市| 承德县| 信丰县| 无极县| 随州市| 原平市| 大洼县| 河北区| 同心县| 正安县| 厦门市| 登封市| 乌恰县| 苍溪县| 昭苏县| 湖南省| 卓资县| 电白县| 云浮市| 秦安县| 庆云县| 敦煌市| 平陆县| 建湖县|