- 大數據云圖:如何在大數據時代尋找下一個大機遇
- (美)大衛·芬雷布
- 1111字
- 2019-01-01 00:13:22
谷歌的大數據行動
谷歌的規模使其得以實施一系列大數據方法,而這些方法是大多數企業根本不曾具備的。谷歌的優勢之一是其擁有一支軟件工程師隊伍,這些工程師能為該公司提供前所未有的大數據技術。多年來,谷歌還不得不處理大量的非結構化數據,例如網頁、圖片等,它不同于傳統的結構化數據,例如寫有姓名和地址的表格。
谷歌的另一個優勢是它的基礎設施。就谷歌搜索引擎本身的設計而言,數不勝數的服務器保證了谷歌搜索引擎之間的無縫連接。如果出現更多的處理或存儲信息需求,抑或某臺服務器崩潰時,谷歌的工程師們只需添加服務器就能保證搜索引擎的正常運行。據估計,谷歌的服務器總數超過100萬個。
谷歌在設計軟件的時候一直沒有忘記自己所擁有的強大的基礎設施。MapReduce和Google File System就是兩個典型的例子。《連線》雜志在2012年暑期的報道稱,這兩種技術“重塑了谷歌建立搜索索引的方式”。
許多公司現在都開始接受Hadoop開源代碼——MapReduce和Google File System開發的一個開源衍生產品。Hadoop能夠在多臺計算機上實施分布式大數據處理。當其他公司剛剛開始利用Hadoop開源代碼時,谷歌在多年前就已經開始大數據技術的應用了,事實上,當其他公司開始接受Hadoop開源代碼時,谷歌已經將重點轉移到其他新技術上了,這在同行中占據了絕對優勢。這些新技術包括內容索引系統Caffeine、映射關系系統Pregel以及量化數據查詢系統Dremel。
如今,谷歌正在進一步開放數據處理領域,并將其和更多第三方共享,例如它最近剛剛推出的BigQuery服務。該項服務允許使用者對超大量數據集進行交互式分析,其中“超大量”意味著數十億行的數據。BigQuery就是基于云的數據分析需求。此前,許多第三方企業只能通過購買昂貴的安裝軟件來建立自己的基礎設施,才能進行大數據分析。隨著BigQuery這一類服務的推出,企業可以對大型數據集進行分析,而無須巨大的前期投資。
除此以外,谷歌還擁有大量的機器數據,這些數據是人們在谷歌網站進行搜索及經過其網絡時所產生的。每當用戶輸入一個搜索請求時,谷歌就會知道他在尋找什么,所有人類在互聯網上的行為都會留下“足跡”,而谷歌具備絕佳的技術對這些“足跡”進行捕捉和分析。
不僅如此,除搜索之外,谷歌還有許多獲取數據的途徑。企業會安裝“谷歌分析”(Google Analytics)之類的產品來追蹤訪問者在其站點的“足跡”,而谷歌也可獲得這些數據。利用“谷歌廣告聯盟”(Google Adsense),網站還會將來自谷歌廣告客戶網的廣告展示在其各自的站點上,因此,谷歌不僅可以洞察自己網站上廣告的展示效果,對其他廣告發布站點的展示效果也一覽無余。
揭秘大數據
將所有這些數據集合在一起,我們可以看到:企業不僅可以從最好的技術中獲益,同樣還可以從最好的信息中獲益。在信息技術方面,許多企業可謂耗資巨大,然而谷歌所進行的龐大投入和所獲得的巨大成功,卻罕有企業能望其項背。