- 大數據技術體系詳解:原理、架構與實踐
- 董西成
- 2038字
- 2019-01-04 11:06:10
1.1 大數據系統產生背景及應用場景
1.1.1 產生背景
大數據技術直接源于互聯網行業。隨著互聯網的蓬勃發展,用戶量和數據量越來越多,逐步形成了大數據,這成為大數據技術的基礎。根據有關技術報告知道,國內百度、騰訊和阿里巴巴等公司數據規模如下:
? 2013年百度相關技術報告稱,百度數據總量接近1000PB,網頁的數量大是幾千億個,每年更新幾十億個,每天查詢次數幾十億次。
? 2013年騰訊相關技術報告稱,騰訊約有8億用戶,4億移動用戶,總存儲數據量經壓縮處理以后在100PB左右,日新增200TB到300TB,月增加10%的數據量。
? 2013年阿里巴巴相關技術報告稱,總體數據量為100PB,每天的活躍數據量已經超過50TB,共有4億條產品信息和2億多名注冊用戶,每天訪問超過4000萬人次。
為了采集、存儲和分析大數據,互聯網公司嘗試研發大數據技術,在眾多技術方案中,開源系統Hadoop與Spark成為應用最廣泛的大數據技術,由于它們的用戶量巨大,已經初步成為大數據技術規范。
1.1.2 常見大數據應用場景
目前大數據技術被廣泛應用在各個領域,它產生于互聯網領域,并逐步推廣到電信、醫療、金融、交通等領域,大數據技術在眾多行業中產生了實用價值。
1.互聯網領域
在互聯網領域,大數據被廣泛應用在三大場景中,分別是搜索引擎、推薦系統和廣告系統。
? 搜索引擎:搜索引擎能夠幫助人們在大數據集上快速檢索信息,已經成為一個跟人們生活息息相關的工具。本書中涉及的很多開源大數據技術正是源于谷歌,谷歌在自己的搜索引擎中廣泛使用了大數據存儲和分析系統,這些系統被谷歌以論文的形式發表出來,進而被互聯網界模仿。
? 推薦系統:推薦系統能夠在用戶沒有明確目的的時候根據用戶歷史行為信息幫助他們發現感興趣的新內容,已經被廣泛應用于電子商務(比如亞馬遜、京東等)、電影視頻網站(比如愛奇藝、騰訊視頻等)、新聞推薦(比如今日頭條等)等系統中。亞馬遜科學家Greg Linden稱,亞馬遜20%(之后一篇博文稱35%)的銷售來自于推薦算法。Netflix在宣傳資料中稱,有60%的用戶是通過推薦系統找到自己感興趣的電影和視頻的。
? 廣告系統:廣告是互聯網領域常見的盈利模式,也是一個典型的大數據應用。廣告系統能夠根據用戶的歷史行為信息及個人基本信息,為用戶推薦最精準的廣告。廣告系統通常涉及廣告庫、日志庫等數據,需采用大數據技術解決。
2.電信領域
電信領域是繼互聯網領域之后,大數據應用的又一次成功嘗試。電信運營商擁有多年的數據積累,擁有諸如用戶基本信息、業務發展量等結構化數據,也會涉及文本、圖片、音頻等非結構化數據。從數據來源看,電信運營商的數據涉及移動語音、固定電話、固網接入和無線上網等業務,積累了公眾客戶、政企客戶和家庭客戶等相關信息,也能收集到電子渠道、直銷渠道等所有類型渠道的接觸信息,這些逐步積累下來的數據,最終形成大數據。目前電信領域主要將大數據應用在以下幾個方面:
? 網絡管理和優化,包括基礎設施建設優化、網絡運營管理和優化。
? 市場與精準營銷,包括客戶畫像、關系鏈研究、精準營銷、實時營銷和個性化推薦。
? 客戶關系管理,包括客服中心優化和客戶生命周期管理。
? 企業運營管理,包括業務運營監控和經營分析。
? 數據商業化:數據對外商業化,單獨盈利。
3.醫療領域
醫療領域的數據量巨大,數據類型復雜。到2020年,醫療數據將增至35ZB,相當于2009年數據量的44倍。醫療數據包括影像數據、病歷數據、檢驗檢查結果、診療費用等在內的各種數據,合理利用這些數據可產生巨大的商業價值。大數據技術在醫療行業的應用將包含以下方向:臨床數據對比、藥品研發、臨床決策支持、實時統計分析、基本藥物臨床應用分析、遠程病人數據分析、人口統計學分析、新農合基金數據分析、就診行為分析、新的服務模式等。
4.金融領域
銀行擁有多年的數據積累,已經開始嘗試通過大數據來驅動業務運營。銀行大數據應用可以分為四大方面:
? 客戶畫像應用:客戶畫像應用主要分為個人客戶畫像和企業客戶畫像。個人客戶畫像包括人口統計學特征、消費能力、興趣、風險偏好等;企業客戶畫像包括企業的生產、流通、運營、財務、銷售、客戶、相關產業鏈上下游等數據。
? 精準營銷:在客戶畫像的基礎上銀行可以有效地開展精準營銷,銀行可以根據客戶的喜好進行服務或者銀行產品的個性化推薦,如根據客戶的年齡、資產規模、理財偏好等,對客戶群進行精準定位,分析出其潛在的金融服務需求,進而有針對性地進行營銷推廣。
? 風險管控:包括中小企業貸款風險評估和欺詐交易識別等手段,銀行可以利用持卡人基本信息、卡基本信息、交易歷史、客戶歷史行為模式、正在發生的行為模式(如轉賬)等,結合智能規則引擎(如從一個不經常出現的國家為一個特有用戶轉賬或從一個不熟悉的位置進行在線交易)進行實時的交易反欺詐分析。
? 運營優化:包括市場和渠道分析優化、產品和服務優化等,通過大數據,銀行可以監控不同市場推廣渠道尤其是網絡渠道推廣的質量,從而進行合作渠道的調整和優化;銀行可以將客戶行為轉化為信息流,并從中分析客戶的個性特征和風險偏好,更深層次地理解客戶的習慣,智能化分析和預測客戶需求,從而進行產品創新和服務優化。
- 數據分析實戰:基于EXCEL和SPSS系列工具的實踐
- 復雜性思考:復雜性科學和計算模型(原書第2版)
- 從0到1:數據分析師養成寶典
- Visual Studio 2015 Cookbook(Second Edition)
- Access 2016數據庫技術及應用
- 醫療大數據挖掘與可視化
- Enterprise Integration with WSO2 ESB
- Spark核心技術與高級應用
- Spark大數據編程實用教程
- 數字媒體交互設計(初級):Web產品交互設計方法與案例
- 實用數據結構
- Mastering ROS for Robotics Programming(Second Edition)
- 機器學習:實用案例解析
- 大數據分析:R基礎及應用
- 數據中心經營之道