- 典型Hadoop云計算
- 趙書蘭編著
- 1852字
- 2018-12-27 06:30:12
1.4 Hadoop使用
Hadoop是一個開源的、高效的云計算實現(xiàn)平臺,其不僅在云計算領(lǐng)域用途廣泛,同時在海量數(shù)據(jù)處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、科學(xué)計算等領(lǐng)域也越來越受到青睞。以下將列出著名企業(yè)使用Hadoop的情況,這些數(shù)據(jù)大多數(shù)統(tǒng)計的時間在2008年,目前Hadoop的使用遠(yuǎn)遠(yuǎn)超出這些數(shù)據(jù)。
1.4.1 國外Hadoop使用
1.Yahoo
Yahoo是Hadoop的最大支持者,大約有兩萬臺計算機(jī),超過10萬個CPU運行Hadoop。最大的一個機(jī)群有2000個節(jié)點(每個節(jié)點2×4 CPU boxes w,4TB磁盤)用于支持廣告系統(tǒng)和Web搜索的研究,用于可擴(kuò)展性測試,以便支持更大機(jī)群上的Hadoop開發(fā)。
2.FaceBook
FaceBook使用Hadoop存儲內(nèi)部日志與多維數(shù)據(jù),并以此作為報告、分析和學(xué)習(xí)的數(shù)據(jù)源。使用320臺機(jī)器的機(jī)群,共計2560個核,大約1.3PB的原始存儲。每個商用節(jié)點8個核,4TB數(shù)據(jù)存儲。作為Streaming API和Java API的重要用戶,F(xiàn)ackBook使用這些特性建立了一個名為Hive的數(shù)據(jù)倉庫框架,目前Hive已經(jīng)正式成為基于Hadoop的相關(guān)項目,Apache一級項目。此外,開發(fā)了HDFS上的FUSE實現(xiàn)。
3.A9.com-Aamzon
Amazon使用Streaming API及C++、Perl和Python工具構(gòu)建了商品搜索索引。使用Java和Streaming API分析處理每日數(shù)以百萬計的會話。機(jī)群的節(jié)點數(shù)目在1~100之間變化。
4.Adknowledge(廣告網(wǎng)絡(luò))
美網(wǎng)絡(luò)廣告公司使用Hadoop構(gòu)建行為導(dǎo)向的廣告推薦系統(tǒng),并進(jìn)行單擊流分析。每日處理500MB的單擊流。機(jī)群的節(jié)點數(shù)目在50~200之間變化,機(jī)群主要基于EC2。在集群上使用Hadoop進(jìn)行統(tǒng)計分析及大規(guī)模建模。
5.CbIR(圖像檢索引擎)
2008年4月以來,日志的CbIR(Content-based Information Retrieval)公司在亞馬遜EC2上使用Hadoop來構(gòu)建圖像處理環(huán)境,用于圖像產(chǎn)品推薦系統(tǒng)。使用Hadoop環(huán)境生成源數(shù)據(jù)庫,便于Web應(yīng)用對其進(jìn)行快速訪問。同時使用Hadoop分析用戶行為的相似性。
6.Last.Fm
Last.Fm(為Audioscrobbler音樂引擎設(shè)計團(tuán)隊的旗艦產(chǎn)品,以英國為總部的網(wǎng)絡(luò)電臺和音樂社區(qū))擁有50個節(jié)點(雙Xeon LV 2 GHz,4GB內(nèi)存,每個節(jié)點1TB存儲;雙Xeon L58321.86GHz,8GB內(nèi)存,每個節(jié)點3TB存儲),主要用于圖表計算、日志分析、A/B測試等。
7.NetSeer
NetSeer是一家專注于新一代搜索和定向廣告技術(shù)的初創(chuàng)公司,其為Amazon EC2上使用最多的實例(1000個)。數(shù)據(jù)存儲于Amazon S3。使用Coloc的50個節(jié)點的機(jī)群。使用Hadoop作數(shù)據(jù)抓取、處理、服務(wù)和日志分析。
8.Powerset/Microsoft(自然語言搜索)
Powerset為一家位于加州圣弗朗西斯科的公司,正在開發(fā)互聯(lián)網(wǎng)上的自然語言搜索引擎。其使用Amazon EC2上近400個實例,數(shù)據(jù)存儲于Amazon S3。微軟對Hadoop的一個子項目HBase有所貢獻(xiàn)。
9.Quantcast
美國的Quantcast公司本身有300個CPU,3500 TB存儲。每日處理1PB以上的數(shù)據(jù)。使用完全自定義的數(shù)據(jù)路徑和排序器的Hadoop調(diào)度器,對KFS文件系統(tǒng)有突出貢獻(xiàn)。
10.Rapleaf
16個節(jié)點的機(jī)群(每個節(jié)點2個雙核CPU,2TB存儲,4GB內(nèi)存),主要使用Hadoop處理Web上關(guān)聯(lián)到個人的數(shù)據(jù),引入Cascading簡化數(shù)據(jù)流來穿過各種處理階段。
11.WorldLingo
基硬件有44臺服務(wù)器(每臺2個雙核CPU,2TB存儲,8GB內(nèi)存),每臺服務(wù)器均運行Xen,開一個虛擬機(jī)實例運行Hadoop/HBase,再開一個虛擬機(jī)實例運行Web或應(yīng)用程序服務(wù)器,即有88臺可用的虛擬機(jī)。運行兩套獨立的Hadoop/HBase機(jī)群,它們各自擁有22個節(jié)點。Hadoop主要用于運行HBase和MapReduce作業(yè),掃描HBase的數(shù)據(jù)表,執(zhí)行特定的任務(wù)。HBase作為一種可擴(kuò)展的、快速的存儲后端,用于保存數(shù)以百萬計的文檔。目前存儲了1200萬篇文檔,近期的目標(biāo)是存儲4億5000萬篇文檔。
12.University of Glasgow-Terrier Team
30個節(jié)點的機(jī)群(Xeon Quad Core 2.4 GHz,4GB內(nèi)存,每節(jié)點1TB存儲)。使用Hadoop促進(jìn)信息檢索研究和試驗,特別是用于TREC,用于Terrier IR平臺。Terrier的開源發(fā)行版中包含了基于Hadoop MapReduce的大規(guī)模分布式索引。
13.University of Nebraska Lincoln,Research Computing Facility
運行的一個中等規(guī)模的Hadoop機(jī)群(200 TB)用于存儲和提供物理數(shù)據(jù),以支持緊湊型)子螺旋型磁譜儀(CMS,Compact Muon Solenoid)試驗的計算。這需要一類能夠以幾Gb/s的速度下載數(shù)據(jù),并以更高的速度獲得本地處理數(shù)據(jù)的文件系統(tǒng)的支持。
14.Vsisible Measures Corporation
將Hadoop作為可擴(kuò)展數(shù)據(jù)流水線的一個組件,最終用于VisibleSuite等產(chǎn)品。使用Hadoop匯總、存儲和分析與網(wǎng)絡(luò)視頻觀眾收看行為相關(guān)的數(shù)據(jù)流。目前的網(wǎng)絡(luò)包括超過128個CPU核,超過100TB的存儲,并計劃大幅擴(kuò)容。
15.Tailsweep——面向blog和其他社會化媒體的廣告網(wǎng)絡(luò)
擁有8個節(jié)點的機(jī)群(Xeon Quad Core 2.4 GHz,8GB內(nèi)存,每個節(jié)點1套500GB RAID 1存儲)用于一個概念驗證性機(jī)群,主要處理諸如數(shù)據(jù)挖掘和Blog抓取等應(yīng)用。
1.4.2 國內(nèi)Hadoop使用
1.百度
百度用Hadoop來分析日志的搜索、在網(wǎng)頁數(shù)據(jù)庫上做一些挖掘工作。每周處理大約3000TB。集群有10~500個節(jié)點。百度也支持Hypertable。
2.中國移動
中國移動于2010年5月正式推出BigCloud1.0,集群節(jié)點達(dá)到了1024,移動大云是基于Hadoop的Map Reduce實現(xiàn)了分布式計算,并利用了HDFS來實現(xiàn)分布式存儲,目前正在研究將大云應(yīng)用在移動業(yè)務(wù)中。
3.阿里巴巴
阿里巴巴擁有一個Hadoop集群,提供各種商業(yè)業(yè)務(wù)數(shù)據(jù)處理。這個集群利用Map Reduce將各種應(yīng)用規(guī)約在一起,然后這些數(shù)據(jù)被送入阿里巴巴的垂直搜索引擎iSearch,其中每個節(jié)點有8個核心,16GB的RAM和1.4TB的存儲空間。
4.優(yōu)酷
優(yōu)酷使用小的Hadoop集群,以減少內(nèi)部指標(biāo)、搜索索引和推薦數(shù)據(jù)的數(shù)據(jù)使用。
5.天涯
天涯主要使用Hadoop進(jìn)行日志分析。
- Introduction to DevOps with Kubernetes
- 網(wǎng)絡(luò)服務(wù)器架設(shè)(Windows Server+Linux Server)
- 精通MATLAB圖像處理
- Mastercam 2017數(shù)控加工自動編程經(jīng)典實例(第4版)
- 大數(shù)據(jù)專業(yè)英語
- Apache Hive Essentials
- 機(jī)器自動化控制器原理與應(yīng)用
- iClone 4.31 3D Animation Beginner's Guide
- Data Wrangling with Python
- AWS Administration Cookbook
- 單片機(jī)C語言應(yīng)用100例
- 人工智能:語言智能處理
- Flink原理與實踐
- 運動控制系統(tǒng)(第2版)
- 計算機(jī)應(yīng)用基礎(chǔ)實訓(xùn)·職業(yè)模塊