- 大數據技術與應用
- 周蘇
- 1830字
- 2020-05-29 11:57:50
2.4 互聯網競拍公司eBay
數據倉庫領域的頭牌廠商Teradata,為其客戶中使用物理容量超過1PB的大規模數據倉庫的用戶企業成立了一個Petabyte Club(PB 俱樂部),其成員包括美國銀行、沃爾瑪、戴爾和AT&T等各行業中的頂級企業,而其中數據量排名第一的,則是互聯網競拍公司eBay見圖2-5)。eBay在全世界擁有超過2.7億名注冊會員,可以說是世界上最大的網上競拍公司。
50TB—這是每天從eBay網站上產生并存儲到數據倉庫中的數據量。單單說50TB這個數字,可能還不太直觀,可以想象一下在家電商場中賣的那種16GB的U盤,50TB差不多相當于3000個這樣的U盤。并且這50TB的數據并不是一年的量,而是僅僅一天的數字。不僅如此,平均每天需要處理的數據量竟然超過了100PB,對于這樣超乎尋常的大數據,每天需要執行數百萬條查詢。
圖2-5 數據倉庫領域的領頭羊——eBay
2.4.1 超乎尋常的數據產生速度
eBay上每天都在買賣各種各樣的商品,但其交易的產生速度和一般的電商網站相比不在一個數量級上。例如,eBay上每天買賣的MP3播放器超過3600臺,香水超過4800件,化妝品每兩分鐘賣出一件,而洗發水、護發素等洗護產品幾乎每秒都會產生新的交易。
而且,并不是只有便宜的東西才有比較大的成交量。例如,鉆戒每兩分鐘也會賣出1只,手表每分鐘可以賣出3塊以上,女式提包則每分鐘可以賣出5個以上,甚至連汽車的交易量也能達到每分鐘一輛,著實令人驚嘆。在eBay的網站上,買賣行為是連續不斷產生的,因此,在大數據的3V特征中,可以說Velocity(速度)是體現得最顯著的一面。
那么eBay對于如此龐大的數據是如何運用的呢?在數據分析已經浸透到企業DNA中的eBay,從市場營銷、客戶忠誠度提升、財務、客戶服務,到對賣家/買家雙方體驗的改善,這些方面都需要進行數據分析。在這些目的中,最重要的就是通過用戶行為分析來提升用戶體驗。
經常使用eBay的用戶可能會注意到,eBay網站的設計會頻繁發生變化,其目的就是為了提升網站訪問者的用戶體驗,也就是說,是為了用戶能夠更舒服地使用網站而對其設計和用戶界面進行優化。David Stone說:“達到這樣大的規模之后,哪怕是對菜單和鏈接的布局進行一點小小的改動,都會大幅影響營業額。”因此,據說對于網站中的一個頁面,有時居然會有23名項目經理在負責。如果覺得頁面上存在問題,先要提出假設,然后在兩周的時間中通過測試等手段進行驗證,最后再決定是否要將修改發布到網站上。
為了進行這樣的分析,eBay存儲了兩年內所有用戶在網站上的行為歷史記錄(訪問日志),例如,“只是瀏覽了商品,但沒有購買”“在最終下單之前又取消了”等。過去,eBay只保存用戶行為歷史數據中的1%,進行測試時,等到得出結果往往需要2~3個月的時間。但現在將100%的數據都保存下來,測試結果只要一周,最快甚至只要半天就能夠得出。
2.4.2 eBay的數據分析基礎架構
eBay 的分析基礎架構包括3個部分。
l)企業數據倉庫(EDW):主要負責存儲用戶的購買記錄、商品銷售記錄等交易數據結構化數據)。通過采用Teradata提供的數據倉庫系統,EDW中存儲了總共6PB的數據,有500多人同時使用,并有數百個應用程序依靠該系統工作。
2)Singularity:這是一個主要負責存儲用戶行為記錄等半結構化數據的數據倉庫。它采用的是Teradata的一款低端企業級產品,并發用戶數量被控制在150人左右。相對地,它比EDW存儲了更大量的數據,總計數據量超過40PB,其中最大的數據表有1.9萬億行記錄,數據量達到了1.2PB。
3)Hadoop(分布式系統基礎架構):在通用型硬件上搭建的Hadoop集群,用于存儲非結構化數據,這些數據是從用戶行為記錄數據和EDW中選取特定的數據復制過來并存儲的,主要用途為文本分析和機器學習,并發用戶數只有很少的5~10人左右,但數據量卻超過了20PB。
eBay之所以同時準備了3種不同的數據基礎架構,是因為考慮到“沒有唯一的技術法寶”,也就是說,無論哪種技術都有其長處和短處,僅靠EDW或者僅靠Hadoop都不行,只有這3種技術相互結合和補充才是最優的方案。
一些重要的觀點如下。
第一,通過對用戶在網站上的行為記錄(訪問日志)進行100%的保存(過去是1%),網站測試效率實現了飛躍性的提升。數據分析的對象從原來的抽樣數據變成了全部數據,這一點作為運用大數據所產生的效果,是非常具有說服力的。
第二,任何技術都有長處和短處。eBay自身對各種技術的特點進行了評測,并對每種技術的用途進行了理性判斷。例如,要滿足500個并發用戶訪問,必須使用傳統的數據倉庫;相對地,對非結構化數據的存儲,傳統的數據倉庫又很困難,而Hadoop則是最合適的選擇。如今,在大企業中,數據倉庫的應用越來越廣泛,考慮構建Hadoop集群的企業也將越來越多,eBay的處理方式值得大家參考。
- ABB工業機器人編程全集
- Practical Data Analysis
- Hands-On Machine Learning on Google Cloud Platform
- 空間機器人遙操作系統及控制
- Dreamweaver 8中文版商業案例精粹
- 程序設計語言與編譯
- Mastering Salesforce CRM Administration
- 21天學通ASP.NET
- PHP開發手冊
- Chef:Powerful Infrastructure Automation
- 從零開始學PHP
- 手機游戲策劃設計
- Redash v5 Quick Start Guide
- PostgreSQL High Performance Cookbook
- Mastering DynamoDB