官术网_书友最值得收藏!

第3章 身處數(shù)據(jù)時代,揭開大數(shù)據(jù)的面紗(2)

大數(shù)據(jù)方式下的云計算

消費者會覺得大數(shù)據(jù)和云計算很無聊,可是對于Delphix來說卻是一座寶藏,因為它正在利用這種技術進行敏捷數(shù)據(jù)管理。

Delphix不需要部署冗余的基礎設施在自己的敏捷數(shù)據(jù)管理解決方案之上,還能同時提升流程的速度。客戶因此能更為快捷地完成交付使用。其實敏捷數(shù)據(jù)管理就是企業(yè)數(shù)據(jù)庫內虛擬化數(shù)據(jù),再提高數(shù)據(jù)庫驅動型應用的開發(fā)敏捷性質,因此使數(shù)據(jù)庫和應用管理都發(fā)生大的改變。企業(yè)的數(shù)據(jù)庫被Delphix放到了云上,再通過數(shù)據(jù)同步和虛擬化技術交給適當?shù)娜俗钋‘數(shù)臄?shù)據(jù)。Delphix宣稱有了應用交付解決方案后,應用項目的進度會提升5倍之多,成本會減少90%,事實上2010年Delphix面世后的銷售增長率達到了300%。

成立于2010年的Delphix,2012年6月它的C輪融資就完成了2500萬美元。這一次融資的領投是Jafco Ventures,投資人中還有Greylock Partners。迄今為止Delphix總融資金額高達4550萬美元。公司依賴其“敏捷數(shù)據(jù)”拿到了超額認購。企業(yè)數(shù)據(jù)庫的數(shù)據(jù)在“敏捷數(shù)據(jù)”的虛擬化作用下,增強了數(shù)據(jù)驅動應用的敏捷性,經濟數(shù)據(jù)庫和應用管理速度也提升了。

不少企業(yè)都把自己的目標設定為借由一個強大的平臺來實現(xiàn)品牌推廣,可是很多社交網(wǎng)站的數(shù)據(jù)還是找不到可行的商業(yè)模式,因為預期真正得以實現(xiàn)的不多。不過社交數(shù)據(jù)公司在不斷發(fā)展壯大,可以想見不遠的將來社交網(wǎng)站的影響力利用問題不會再是遙遠的夢想。

像是紐約的SumAll公司期望就是要帶給每個客戶“小而美”的數(shù)據(jù)。SumAll所提供的平臺在于提供給中小企業(yè)實時的數(shù)據(jù)服務,利用桌面、iPhone和安卓系統(tǒng)來訪問,可以看到很多可視性的大量數(shù)據(jù),也就更便于閱讀和觀看。SumAll在和Shopify、PayPal和Magento合作電子商務和支付系統(tǒng)的時候,用戶點擊幾下就能完成賬戶的集成工作。SumAll對于實時數(shù)據(jù)的分析很快速,再為用戶提供一個如社交媒體式的“新聞訂閱”一樣的簡潔分析和見解。SumAll還會為客戶提供深入挖掘稅收、發(fā)貨和出售量的服務,甚至連對客戶依照不同標準的排序分析也可以完成。

2011年11月成立的SumAll,在2012年6月著名風險投資公司Battery Ventures牽頭聯(lián)合Wellington Partners、Matrix Partners和General Catalyst Partners為SumAll投資了150萬美元的種子期融資。SumAll到2012年12月對外宣布獲得了600萬美元的A輪融資,還是Battery Ventures聯(lián)合Wellington Patners對其進行投資。目前設在紐約總部的公司有25名員工。

還有Ngdata公司,企業(yè)用戶和他們的消費者通過它們能夠進行一對一的營銷模式提供和得到最好的建議和產品。Ngdata曾推出過一個產品Lily集成了內外部的結構化和非結構化的數(shù)據(jù)。Lily還可以用人工智能拍照工具對消費者的習慣和愛好進行記錄。正在快速成長的大數(shù)據(jù)市場,對企業(yè)的價值越來越大了,企業(yè)對市場的評估和行為的預判都要通過這些數(shù)據(jù)分析。ING的投資總監(jiān)Tom Bousmans說過,消費者所產生的數(shù)據(jù)有上億個,企業(yè)都可以通過這些來了解用戶需求,彼此間還有個性和動態(tài)的互動。

成立于2009年的Ngdata的員工現(xiàn)有20名,它們還有類似Wibidata和Spire這樣的競爭對手。Ngdata與競爭對手的不同在于它能夠提供企業(yè)與消費者實現(xiàn)互動的數(shù)據(jù)解決方案,不僅是單純專注在大批量數(shù)據(jù)分析之上。2012年10月Ngdata獲得了250萬美元的融資。這一次融資的資金主要來自ING、Sniper investment、Plug and Play Ventures等投資機構和一些天使投資人,這份資金將幫助Ngdata推廣個性化產品線的拓展,并在紐約和舊金山專門為美國客戶設立服務辦公室。

Attivio的創(chuàng)始人Ali Riaz覺得企業(yè)用戶每發(fā)送一條查詢請求的時候,得到的信息都是具有洞察性的,絕非羅列出來的鏈接或是一張簡單的圖表。它回答的問題不僅是“是什么”還有“為什么”,就比如銷售量下降是市場需求下降還是銷售人員表現(xiàn)不夠突出造成的。

任何一家企業(yè)要做的工作都是市場營銷。近幾年社會化媒體的興起,讓營銷業(yè)者的注意力都集中在了數(shù)字營銷之上,不過對于這個領域營銷人員還欠缺有效的分析。Good Data公司正是瞅準這一商機,開始為營銷人員提供集成服務,讓他們可以利用微博等社交網(wǎng)絡平臺進行深度的分析。

大數(shù)據(jù)的奧秘

事實上并不是說大數(shù)據(jù)的處理就有多困難。收集一些數(shù)據(jù),企業(yè)的分析專家團隊就可以開始進行數(shù)據(jù)價值的探索。企業(yè)要做的就是要讓分析專家團隊最近地去接觸那些數(shù)據(jù),接下來的工作才是開始進行分析探索。要相信分析專家和數(shù)據(jù)科學家們都會很好地做好他們應該完成的工作。

一個很老的拇指法則指出,分析數(shù)據(jù)的工作的時間中有70%~80%都花在了收集和整理之上,剩下的20%~30%的時間才是真正的分析。大數(shù)據(jù)在剛開始處理的時候,分析時間所占的比例就更低了。一開始分析專家會用95%左右的時間來處理數(shù)據(jù),甚至有時還會達到100%,接下來才會思考這些數(shù)據(jù)如何用來做更為深層次的分析。

上述做法必須得到理解。首先分析數(shù)據(jù)的流程中最重要的一環(huán)就是要先弄明白數(shù)據(jù)源的本質。對它們的表現(xiàn)、調整加載情況過程反復地進行檢查,才能保證選擇出能夠更好地服務于目標的數(shù)據(jù),雖然有很多數(shù)據(jù)并不那么吸引人或是令人興奮,可確實是選出了最重要的數(shù)據(jù)。要是這些步驟都被忽略的話,那后面的分析環(huán)節(jié)就不能繼續(xù)。

大數(shù)據(jù)中最優(yōu)價值的部分被確定了,也就能確定用什么辦法選擇提取這些最優(yōu)且精確的部分,這是最為關鍵的環(huán)節(jié)。這一環(huán)節(jié)必然是非常耗時的,盡管是花了比預計還要多的時間,也不用為此懊惱。因為企業(yè)的分析專家和業(yè)務贊助商是需要在弄明白數(shù)據(jù)源的過程中尋找一個代價最小、見效最快的方式。不論這東西是不是微不足道,但要給企業(yè)展示的一定是最有價值的東西。人們可以因此對此過程保持最高的興趣,并協(xié)助其他人理解進展的過程。

大數(shù)據(jù)要如何應用到業(yè)務中,這是個非常耗時耗力的過程。在這一過程中,企業(yè)的分析專家和業(yè)務贊助商總是想要找到最有效的方式,為企業(yè)展示這方面的進展,并以此來贏得最穩(wěn)定的回報。

舉個歐洲零售商的例子,公司總想獲得最為詳盡的網(wǎng)絡日志數(shù)據(jù)。公司在經歷了一個漫長且復雜的收集數(shù)據(jù)的過程后,開始實施了一系列簡單的舉措,其中包括鑒別用戶瀏覽過的商品,在這些數(shù)據(jù)的基礎上,他們建立了一個電子郵件系統(tǒng),目的是為了給瀏覽過商品卻未購買的顧客發(fā)郵件。企業(yè)從中獲取了高額的利潤。

公司采取了類似的基本早期措施外,還會繼續(xù)投資于收集和加載網(wǎng)絡數(shù)據(jù)之上。最為關鍵的一點在于他們缺乏處理整套數(shù)據(jù)流的經驗和意愿。試想一下經過數(shù)據(jù)的深層次分析后他們所得到的回報。也正是因為這些快速及時的進展,每個在企業(yè)中的人都樂意再繼續(xù)下去。他們或許從最早期的舉措當中看到了數(shù)據(jù)的巨大威力,也已經為未來的努力買過單了。

顧客給予的是個體具體行為,這一點是最重要的。上述的例子當中已經讓他們認定個人的重要性體現(xiàn)在了模式分析的輸入數(shù)據(jù)上。每個個體從獲取價值上來說并不需要識別。分析專家如今已經可以利用數(shù)據(jù)庫技術在不識別個體的情況下完成分析。很多隱私的顧慮就可以就此消除了。事實上不少企業(yè)都這樣來定位和分析具體個體的顧客。這些企業(yè)想必都已經制定了關于隱私保護的政策,不論在什么前提之下,這些隱私政策都要謹慎地遵守。

世界在小數(shù)據(jù)時代是如何運作的,人們總是希望通過分析和收集數(shù)據(jù)來證明這一設想。不久以后,大數(shù)據(jù)時代的到來,人們就不再局限在這設想中。因為數(shù)據(jù)的分析和研究讓人們發(fā)現(xiàn)了從前沒發(fā)現(xiàn)的聯(lián)系。

自然理論或是社會科學帶來的人們的設想,也讓我們理解和預測周圍的世界。人類在經歷假想時代到數(shù)據(jù)時代的過渡中,很可能會發(fā)現(xiàn)理論不再需要了。

《連線》雜志的主編克里斯·安德森(Chris Anderson)在2008年就指出:“科學研究方法因為數(shù)據(jù)爆炸都變得落伍了。”此后他還在《拍字節(jié)時代》(The Peta byte Age)的封面故事中提到了,從某種意義上說,大數(shù)據(jù)就說明了“理論的終結”。安德森曾提出,如今不再需要一系列因果關系來驗證各種設想了,這種傳統(tǒng)研究模式早已被無理論指導的純粹相關關系研究所代替。

安德森為了證明自己的想法,闡述了之所以量子物理學稱為純理論學科的原因正是由于高耗費、復雜實驗等等。他所提到的潛在觀點就在于量子物理學的理論已經和實際剝離了。他提到了谷歌設計的搜索引擎和基因排序工作,他認為:“海量數(shù)據(jù)時代,所有其他的學科已經為應用學科所取代。只要是有足夠的數(shù)據(jù)問題就可以說明清楚。假設有一拍字節(jié)的數(shù)據(jù),并了解數(shù)據(jù)之間的相互關系,那問題就可以得以解決。”

安德森的文章在專業(yè)領域引起了軒然大波,事實上安德森也認識到了自己發(fā)出了過于偏激的言論,可是某種程度上說他的話還是值得深究的。當中最為核心的是,截至目前,理論總是用來在實踐中理解和分析世界的,可是到了大數(shù)據(jù)時代理論已經不再必要,數(shù)據(jù)就夠了。也就是說譬如世界的運作、人類的行為等等普遍規(guī)則也都不重要了。現(xiàn)在最重要的是數(shù)據(jù)分析,一切問題都能解決了。

事實上,大數(shù)據(jù)也是有理論基礎的。譬如分析大數(shù)據(jù)所用的就是統(tǒng)計和數(shù)學理論,還可能涉及部分計算機科學理論。盡管和地心引力理論差異很大,但不管怎么說也是理論。大數(shù)據(jù)分析模式如果建立在這些理論之上,那必然可以實現(xiàn)大數(shù)據(jù)的預測能力。事實上,為人們提供新鮮深刻的洞見就是大數(shù)據(jù)的價值所在。

第一要關注的是如何收集數(shù)據(jù),是不是數(shù)據(jù)收集的方便程度就是決定的關鍵因素呢,還是數(shù)據(jù)收集的成本呢?眾多的理論影響了人們的決定,就如達納·博伊德(Danah Boyd)和凱特·克勞福德(Kate Crawford)說的那樣,一定程度上,結果由選擇所決定。谷歌用檢索詞來預測的是流感而不是鞋碼。分析數(shù)據(jù)的時候選擇工具依賴的同樣也是理論。研究結果的解讀同樣應用的也是理論。在大數(shù)據(jù)時代不代表理論消亡,相反卻是在大數(shù)據(jù)的方方面面都滲透著理論。

安德森作為第一個發(fā)現(xiàn)這個問題的人,盡管沒有得到合適的答案,也值得讓人們歡呼。大數(shù)據(jù)不會宣稱“理論已死”,當然它也從本質上改變了理解世界的方式。以往的習慣都被顛覆了,舊有的制度也面臨著巨大的挑戰(zhàn)。

當人們選擇大數(shù)據(jù)的理念和方法的時候,就會感覺大數(shù)據(jù)所釋放出來的價值已經讓這些不再是一種權衡,而是未來的必然改變。高科技行業(yè)當中,不少人認為要依靠新的工具來到達大數(shù)據(jù)的彼岸,這觀點可以理解為由于他們是工具制造者的緣故。大數(shù)據(jù)趨勢的深層原因就是海量數(shù)據(jù)的存在,包括越來越多以數(shù)據(jù)形式存在的事物。

當下是大數(shù)據(jù)發(fā)展的最佳時機

迄今為止,在大數(shù)據(jù)上不少企業(yè)都做得不多。幸運的是到了2012年,即便是尚未重視大數(shù)據(jù)的企業(yè)也猶未為晚,當然電子商務行業(yè)的企業(yè)除外。不過這種情況很快就會發(fā)生改變。直到今天,絕大多數(shù)的企業(yè)所錯過的不過是第一個吃螃蟹的機會,所以對它們而言這問題并不大,迎頭趕上的機會還是存在的。不過過幾年以后,要是這家企業(yè)仍舊不關心大數(shù)據(jù)的話,那它就會被淘汰。所以說,現(xiàn)在是控制大數(shù)據(jù)最好的時間點。

不管是什么企業(yè)獲取業(yè)務價值都可以通過新的數(shù)據(jù)源來完成,而那種競爭對手還未發(fā)現(xiàn)這方式的情況不多見。大數(shù)據(jù)給所有人都提供了巨大的商機,無論是誰都要能打敗自己的對手才能贏在最前方。未來的幾年,人們會陸陸續(xù)續(xù)看到大數(shù)據(jù)分析所帶來的成功案例。不少案例都會顯示部分企業(yè)會毫無先兆地就被行業(yè)所淘汰了。而這些例子現(xiàn)在就已經引起了眾多人的注意了,所謂這些企業(yè)正是那些在行業(yè)當中反應遲鈍,落后守舊的企業(yè)。如果在新興的電子商務行業(yè)中,則情況就有很大不同了。

因此,現(xiàn)在是最佳的時機。

實際上,控制大數(shù)據(jù)絕非想象中的那樣難。不少大企業(yè)都已經開始了自己的數(shù)據(jù)收集和分析工作了,還將其視為自己發(fā)展戰(zhàn)略中的核心部分。像數(shù)據(jù)倉庫、報表和分析都已經應用得非常廣泛了。企業(yè)只要意識到數(shù)據(jù)存在的價值,那么只需要延伸和擴展現(xiàn)有的工作就可以做到控制大數(shù)據(jù)。懷疑論者的話,諸如大數(shù)據(jù)沒有探索價值,它們還沒有得到驗證,風險太大等等都不能信。過去的幾十年,很多同樣的借口也在一步步成為數(shù)據(jù)分析的障礙。還不確定大數(shù)據(jù)價值的人,必須讓他明白大數(shù)據(jù)的分析和控制不過是現(xiàn)有企業(yè)所做事情的延伸罷了,并非本質性的變化。因此,大數(shù)據(jù)既然在人們身邊,就不要害怕它的到來。

主站蜘蛛池模板: 明水县| 习水县| 宁明县| 靖州| 厦门市| 敦煌市| 怀远县| 潜江市| 平昌县| 屯昌县| 广西| 恭城| 鹿邑县| 阳东县| 洪雅县| 霍林郭勒市| 肇庆市| 壶关县| 郴州市| 海丰县| 平原县| 枣阳市| 喀喇沁旗| 翼城县| 元阳县| 宁德市| 武清区| 留坝县| 罗山县| 伊春市| 满城县| 岳池县| 武定县| 南宫市| 百色市| 稷山县| 高青县| 金平| 上蔡县| 吉木萨尔县| 纳雍县|