官术网_书友最值得收藏!

1.6 大數據應用舉例

隨著大數據時代的到來,大數據的應用開始逐漸進入社會的各個領域,其相關技術已經滲透到各行各業,基于大數據分析的新興學科也隨之產生。大數據在不同的專業領域中均有不同程度的應用。

1.6.1 趨勢預測

在數據趨勢分析領域,除了關于“尿布和啤酒”挖掘案例外,又涌現出了豐富的例子。美國總統奧巴馬成功連任,是其中的典型例子之一。它包含了兩個方面比較有意思的分析:競選團隊的競選策略分析和第三方觀察者的預測分析。

2012年美國總統大選時,美國的失業率超過了7.4%。在過去70年里,還沒有一名美國總統能在這種情況下連任成功。面臨著如此巨大的壓力,奧巴馬的數據分析團隊一方面研究每一個群體選民的行為規律并建立數據模型,進而預測選民的行為方式;另一方面通過選民行為變化的規律及其各種誘發因素及時調整模型,并根據新模型做出相應的對策。這為奧巴馬取得大選的勝利帶來了根本性優勢。

美國統計學家Nate Silver分析了奧巴馬和羅姆尼的競爭力優勢和弱勢,建立了預測模型,認為奧巴馬連任的機會是86.3%。Silver的同事Mike Bostock和Shan Carter發表文章稱,基于競爭力的分析,他們看到奧巴馬有431種勝利途徑,而羅姆尼僅有76種,如圖1-9所示。

圖1-9 Bostock和Carter的預測結果

Silver對選票結果的預測也高度準確:奧巴馬比羅姆尼的選票比為50.8∶48.3,實際的票選結果為50.4∶48.1,兩者幾乎相等。這些成功的預測案例充分展示了大數據技術強大的能量。

1.6.2 疫情分析

Google在2008年11月推出了“流感趨勢”網站,并在Nature發表了相關的預測方法和結果。其工作原理:在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著上升;而到了夏季,與曬傷有關的搜索又會大幅增加。這表明在特定時期,網上關于某種疾病的搜索量與當下該疫情的分布或傳播情況存在一定的規律,進而可以對疫情進行準確的估測。

以“登革熱流行趨勢”為例,Google研究發現“搜索登革熱相關主題的人數與實際有登革熱癥狀的人數之間存在著密切的關系”。并不是每個搜索“登革熱”的人都是該病的患者,但將與“登革熱”有關的Google搜索查詢匯總,可以得到非常有用的信息。Google將統計的查詢數據與傳統登革熱監測系統的數據進行了對比分析,結果發現相關搜索查詢在登革熱流行季節確實會明顯增多。通過對“登革熱”搜索情況進行分析,估測出世界上不同國家和地區的傳播情況。圖1-10對比了印度尼西亞登革熱疫情和Google預測結果,兩者的重合度非常高。

圖1-10 印度尼西亞登革熱疫情和Google預測對比

1.6.3 消費行為分析

國內對大數據的搜集和利用主要體現在電子商務上。2010年,淘寶網推出了針對中國消費者的數據研究平臺——淘寶指數。其工作原理:提供基于淘寶網上的商品類目、品牌、屬性等關鍵詞的多維度的數據組合查詢;并利用用戶的搜索行為和后臺成交明細數據進行分析。從事各個行業的淘寶用戶就可以利用淘寶指數進行趨勢分析、研究市場細分和定位消費群體等。據鄔賀銓院士分析:“淘寶指數”統計人們對首飾、衣服、電子產品等消費需求,而不是基本的吃、用等必需品的價格,故受收入變化的影響更大,淘寶公司發布的CPI(consumer price index,居民消費價格指數)的預測值比國家統計局的CPI更為敏感。淘寶指數也因此受到重視。

1.6.4 智慧金融

大數據在金融領域有著極其廣泛的應用,以騰訊、阿里為代表的互聯網公司推出了基于大數據的金融理財方式,如理財通、支付寶等。下面以“阿里金融”為例,說明大數據在金融方面的應用。

阿里金融,即阿里小貸,是國內率先利用大數據技術生成新服務模態的重要實例。阿里金融通過研究淘寶(天貓)網上小微企業的交易狀況,篩選出財務健康和誠信度高的企業,為這些企業提供網上貸款服務。阿里金融大數據主要包括以下方面。

(1)數據收集。一方面,阿里巴巴、淘寶、天貓、支付寶等交易平臺,為開展對賣家信譽的定量分析提供數據基礎,即包括平臺認證和注冊信息、歷史交易記錄、客戶交互行為、海關進出口信息等數據。另一方面,賣家提供的銷售數據、銀行流水、水電繳納、結婚證等信息。

(2)大數據模型測評。利用心理測試系統,判斷企業主的性格特征,并依據大數據模型對小企業主對假設情景的掩飾程度和撒謊程度進行判斷。

(3)通過網絡數據模型和在線資信調查,以及輔以第三方驗證交叉檢驗技術確認客戶信息的真實性,將客戶在電子商務網絡平臺上的行為數據映射為企業和個人的信用評價。

1.6.5 精確營銷

“大數據”時代已經降臨,商業、經濟及其他領域中的決策將會基于數據和分析而并非經驗和直覺。利用海量數據和先進的數據挖掘技術研究客戶行為特征并進行精準營銷,為企業的營銷決策提供可靠依據。營銷的終極追求就是無營銷的營銷,到達終極目標的過渡就是逐步精準化。個性化營銷活動可以利用市場定量分析、信息技術等計劃實現企業效益的最大化。

沃爾瑪是最早通過利用大數據而受益的企業之一。在2007年,沃爾瑪建立了一個存儲能力高達4PB的超大數據中心。通過對消費者的購物行為進行分析,沃爾瑪不但成為最了解顧客購物習慣的零售商,而且創造了“啤酒與尿布”“蛋撻與颶風用品”的經典商業案例。

國內也有成熟的精準營銷案例。中國某互聯網數據服務提供商推出了基于汽車領域的用戶行為分析平臺,平臺記錄著用戶的網絡瀏覽行為,包括訪問軌跡、用戶畫像等。海量用戶長時間、連續性的網上行為路徑,將原本割裂的信息串聯成一條完整的數據價值鏈條。平臺不僅可以分析關注汽車資訊的用戶行為,而且可通過cookie關聯找到更廣范圍(如娛樂、美食、旅游、IT、科技、時尚)的用戶,對營銷指數性非常有價值,有很大增長空間。

大數據時代需要新技術支撐精準營銷。在精準營銷中,數據處理時間要求在分鐘甚至秒級,傳統的數據倉庫系統、數據挖掘等應用無法處理非結構化數據,也不能滿足數據處理的實時性。Hadoop的分布式處理機制實現了大數據的高效處理技術來抽取有用數據,為營銷活動的進行提供有力的支撐。

基于Hadoop的MQT(materialized query tables,具體化查詢表)方法利用云計算技術對營銷決策分析所依賴的海量基礎數據進行靈活的、多維度的度量分析計算,實現了總體分析、占比分析、市場分析、排序分析,支持按工業、商業、品牌、價格等多視角的分析,解決了營銷決策分析中由于數據量的巨大所造成的磁盤開銷及分析性能瓶頸的問題,極大地提高了營銷決策分析的運行速度、數據吞吐量及數據庫服務器磁盤的利用率,為營銷決策分析提供強有力的運算、存儲支持。

1.6.6 輿情分析

輿情是指在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化的過程中民眾對社會管理者產生和持有的社會政治態度。它是較多群眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等表現的總和。網絡輿情發展迅速,可能造成巨大的社會影響,已經引起了社會各界高度重視。

在大數據和移動互聯網時代,隨著社交媒體深入民間,民間情緒和輿論的表達越來越多。因此,輿情分析勢必成為支持決策的基本工具并且有著廣闊的應用前景。通過數據采集將用戶關注的網站信息自動收集,然后通過預處理,得到網頁正文內容,對其主題進行分析,最后將分析結果進行發布,具體包括數據采集、數據預處理、輿情處理和輿情發布4個步驟。

(1)數據采集

數據采集是通過遍歷用戶關注的網站列表,抓取其網站內容,并且根據其源文件生成下級URL列表,將列表中網頁源文件抓取出來存入數據采集數據庫中。

(2)數據預處理

收集到的網頁信息包含很多HTML標簽等與正文內容無關的信息,故需要對網頁主題內容進行提取。網頁主題內容的提取當前已經成為Web信息處理中的研究熱點。通過研究表明,通過提取主題信息可以減少一半的瀏覽時間。對于網頁分類來講,網頁主題提取是數據與處理中的至關重要的環節。與傳統的中文文本相比,網頁結構要復雜得多,網頁文檔中除了主題信息外往往包含很多“噪聲”內容,包括廣告信息、超鏈接、圖片和Flash等。

(3)輿情處理

通過對訓練集進行特征提取及向量表示,生成向量空間模型,然后與預處理文本進行比對,從而得出預處理文本的關鍵信息。

(4)輿情發布

通過文本或可視化方法對發現的輿情進行展示,并根據需求生成相應的輿情分析報告。

表1-3給出了一個微博輿情監控系統的功能示例。該微博輿情監控系統由微博數據采集模塊、微博數據預處理模塊、微博輿情監控模塊、輿情監控分析模塊、索引存儲模塊、交互模塊組成。

表1-3 微博輿情監控系統組成

大數據時代,輿情數據已是海量數據,傳統的處理方式顯得力不從心,效率低下,難以達到實時監控和分析。利用分布式輿情分析的數據處理,可以解決輿情數據抓取與分析的難題,實現高性能的輿情數據挖掘。分布式輿情分析系統包括數據采集服務器、預處理服務器、分析服務器及輿情數據倉庫。

盡管網絡大數據的涌現為人們提供了前所未有的寶貴機遇,但同時也提出了巨大的挑戰。由于大數據的新特性,以及由此帶來的軟件的一些新變化,給軟件測試帶來了新的挑戰,其中最明顯的問題包括測試ORACLE問題、測試能力問題、測試結果的判定問題、隱私問題等。

自從1945年歷史上發現了第一個計算機缺陷,至今已有近70年的歷史。軟件測試出現“證偽”和“求真”兩種,但是其基本前提都是在確定的輸入下,存在確定的輸出。測試需要將軟件運行的實際結果和預期的結果相比較,從而得出軟件運行正確與否。這個就是軟件測試的ORACLE問題。

在大數據分析背景下,數據之間的相關性分析、數據的分類、數據聚類,以及個性化的推薦、趨勢預測等典型應用場景都不存在確定的輸出。從另一個角度看,很多應用輸出結果,不存在對與錯的區別,只存在好和差的區別。大數據分析的準確性很大程度上依賴于數據的輸入和數據的分布特性。

數據的分布特性包含了數據之間的某種相關關系,這種相關關系必須在數據量達到一定的程度時才能反映出來。較大的數量才能反映隱含在其中的邏輯關系,在數據量少時,是無法感知的,輸入數據的構建也將是一個重要的挑戰。如果原來應用已經采用全部數據,是否有必要構造另一個和原來數據集等價的數據集?畢竟構造一個全部輸入數據將是一個巨大成本的工作。為了應對數據爆炸性增長,數據處理平臺和數據分析平臺應支持動態擴展。Apache基金支持的Hadoop平臺就是目前最著名的大數據處理系列,數據處理的軟件可以架構于千萬級服務器的資源上,如何搭建滿足新型架構和超大規模的測試客戶端,將會遇到極大的困難。

大數據對于隱私將是一個重大的挑戰,用戶的隱私會越來越多地融入各種大數據中,而各種數據來源之間的無縫對接及越來越精準的數據挖掘技術,使得大數據擁有者能夠掌控越來越多的用戶和越來越豐富的信息。在挖掘這些數據價值的同時,隱私泄漏存在巨大風險。同時,由于系統故障、黑客入侵、內部泄密等原因,數據泄漏隨時可能發生,從而造成難以預估的損失。因此,大數據時代,因數據而產生的安全保障問題、隱私問題非常嚴峻。

主站蜘蛛池模板: 普陀区| 北川| 蕉岭县| 金沙县| 曲沃县| 封丘县| 武山县| 永新县| 炉霍县| 长武县| 阿荣旗| 营山县| 三原县| 油尖旺区| 太康县| 九寨沟县| 巩留县| 阳高县| 隆子县| 阳朔县| 华阴市| 宁津县| 浙江省| 肃宁县| 乐昌市| 乐昌市| 太原市| 固原市| 玉门市| 息烽县| 双鸭山市| 濉溪县| 阜城县| 鹰潭市| 五寨县| 隆安县| 尼勒克县| 永顺县| 山东| 贞丰县| 陇南市|