官术网_书友最值得收藏!

2.3 互聯(lián)網(wǎng)企業(yè)對大數(shù)據(jù)的運(yùn)用

在對大數(shù)據(jù)的運(yùn)用方面,擁有較長歷史的莫過于以亞馬遜(Amazon,見圖2-4)為代表的電子商務(wù)企業(yè)了。亞馬遜基于大量購買歷史記錄和點(diǎn)擊流數(shù)據(jù),做出“購買了本商品的顧客還購買了……”的商品推薦功能,這種做法現(xiàn)在已經(jīng)隨處可見了,但像這樣為客戶推薦合適的商品,過去只有經(jīng)驗(yàn)豐富的銷售人員和熟悉客戶的店員才能做到,是“具有人類屬性”的行為,現(xiàn)在卻能夠由計(jì)算機(jī)來自動(dòng)完成,這一點(diǎn)具有劃時(shí)代意義。 

Facebook(臉譜)及主要面向商業(yè)用戶的LinkedIn(領(lǐng)英),可以算是在大數(shù)據(jù)運(yùn)用方面取得顯著成果的企業(yè)代表。毋庸置疑,在SNS(Social Network Software,社會(huì)性網(wǎng)絡(luò)軟件)業(yè)務(wù)的運(yùn)營上,最重要的就是人脈。如果一個(gè)用戶注冊后,發(fā)現(xiàn)上面一個(gè)認(rèn)識的人都沒有,那么這個(gè)用戶可能很快就會(huì)注銷賬號,或者是很久都不會(huì)再登錄了。因此,SNS方面最為重視的,就是不斷提高“也許您還認(rèn)識……”功能的精確度。因?yàn)槿绻脩粼趯ふ液糜鸦蚴烊松闲枰ㄌ嗟臅r(shí)間和精力,對SNS業(yè)務(wù)就會(huì)帶來很大的負(fù)面影響。 

在全世界200個(gè)國家擁有1.5億用戶的LinkedIn,在好友推薦功能上采用的算法非常原始,即:如果A和B是朋友,B和C是朋友,則A認(rèn)識C的可能性很大。然而,雖然LinkedIn的用戶數(shù)不及Facebook,但也達(dá)到了跟日本總?cè)丝谙喈?dāng)?shù)囊?guī)模,從如此多的用戶中找到熟人,就好像是大海撈針一般,其難度是超乎想象的。 

Facebook則十分重視“您可能還認(rèn)識……”這個(gè)功能,對用戶找到好友所需要的時(shí)間進(jìn)行監(jiān)控。通過運(yùn)用精準(zhǔn)的用戶追蹤技術(shù)和分析技術(shù),F(xiàn)acebook掌握了一個(gè)規(guī)律,即如果一個(gè)用戶能夠在一定時(shí)間內(nèi)找到一定數(shù)量以上的好友,則該用戶就很可能會(huì)長期使用Facebook。因此,F(xiàn)acebook為了能夠讓新用戶盡早找到一定數(shù)量的好友,在服務(wù)的設(shè)計(jì)上傾注了大量的心血。 

978-7-111-53304-7-Chapter02-4.jpg

圖2-4 電子商務(wù)的代表企業(yè)——亞馬遜(Amazon)

在線DVD租賃公司Netflix 也采取了和Facebook相同的策略。當(dāng)用戶注冊時(shí),Netflix會(huì)強(qiáng)烈推薦用戶在“想看的電影清單”中添加幾部電影作品。因?yàn)樵摴镜臄?shù)據(jù)團(tuán)隊(duì)通過數(shù)據(jù)分析發(fā)現(xiàn),顧客在“想看的電影清單”中添加的作品數(shù)量與會(huì)員簽約時(shí)間存在相關(guān)性。也就是說,當(dāng)用戶在“想看的電影清單”中添加的作品數(shù)量超過一定值(可能是10部或者20部)時(shí),就會(huì)長期繼續(xù)簽約成為該網(wǎng)站的會(huì)員,這也就意味著他們可以為公司帶來收益。Netflix通過運(yùn)用這一數(shù)據(jù)對服務(wù)進(jìn)行設(shè)計(jì),使得新用戶在“想看的電影清單”中添加的電影數(shù)量能夠盡量超過這一“魔法數(shù)字”,并進(jìn)行反復(fù)測試,對用戶行為是否符合設(shè)計(jì)意圖進(jìn)行持續(xù)監(jiān)控。 

Google也是以大數(shù)據(jù)為武器的重要企業(yè),其強(qiáng)大之處在于,它能夠利用“搜索歷史記錄”這一在用戶看來毫無用處的“數(shù)據(jù)垃圾”,接二連三地推出有價(jià)值的新服務(wù),如智能關(guān)鍵字修正、手寫輸入、Google翻譯和語音搜索等。這些功能和服務(wù)的共同點(diǎn)在于統(tǒng)計(jì)學(xué)的學(xué)習(xí)方法。在模式識別的世界中有這樣一句話:大量的數(shù)據(jù)往往要?jiǎng)儆趦?yōu)秀的算法。這句話的意思是,相比用復(fù)雜的算法來識別每一條新輸入的數(shù)據(jù)來說,對大量存儲的正確數(shù)據(jù)進(jìn)行分析,在統(tǒng)計(jì)學(xué)上往往能夠得出最合適的結(jié)果。而剛才列舉的Google 的各種功能和服務(wù)恰恰印證了這一點(diǎn)。 

智能關(guān)鍵字修正功能(您要搜索的是……)是對每月900億次的搜索記錄進(jìn)行分析,找出用戶在搜索時(shí)可能打錯(cuò)的,或者是輸入法轉(zhuǎn)換錯(cuò)的關(guān)鍵字,以及之后又重新輸入的,或者是用戶點(diǎn)擊的正確的關(guān)鍵字,通過機(jī)器學(xué)習(xí)的方式來進(jìn)行分析處理。 

關(guān)于Google翻譯,在Google翻譯主頁上的常見問題解答中進(jìn)行了如下說明。 

1)Google是否開發(fā)了自己的翻譯軟件? 

是的。Google的研究小組已針對目前在Google翻譯中提供的語言對,開發(fā)出了自己的統(tǒng)計(jì)翻譯系統(tǒng)。 

2)什么是統(tǒng)計(jì)機(jī)器翻譯? 

人們當(dāng)今使用的大多數(shù)最新商用機(jī)器翻譯系統(tǒng)都是采用基于規(guī)則的方法開發(fā)的,這些系統(tǒng)需要進(jìn)行大量定義詞匯和語法的工作。 

Google的系統(tǒng)采用的是不同的方法:將數(shù)十億字詞輸入計(jì)算機(jī),既有目標(biāo)語言的單一語言文本,又有包含不同語言之間人工翻譯示例的對應(yīng)文本。然后,應(yīng)用統(tǒng)計(jì)學(xué)習(xí)技術(shù)構(gòu)建翻譯模型。在研究評估中獲得了非常好的結(jié)果。 

3)翻譯質(zhì)量沒有達(dá)到我期望的水平。可以翻譯得更準(zhǔn)確一些嗎? 

……為了提高質(zhì)量,我們需要大量雙語文本。如果您有大量雙語或多語文本并且愿意提供給我們,請與我們聯(lián)系。 

可以看出,“大量”是這段說明中的關(guān)鍵詞。以搜索引擎為首,包括翻譯、語音搜索等各種服務(wù),Google都是免費(fèi)提供的,其中一個(gè)理由就是為了收集大量的樣本數(shù)據(jù)。 

主站蜘蛛池模板: 汝南县| 金华市| 霍城县| 象州县| 莫力| 临安市| 建始县| 承德县| 北安市| 洛阳市| 石门县| 东港市| 建德市| 陈巴尔虎旗| 古交市| 靖州| 乐昌市| 南陵县| 平定县| 海晏县| 共和县| 成武县| 三门县| 兰溪市| 蓝田县| 安丘市| 忻州市| 双桥区| 京山县| 双辽市| 榕江县| 和林格尔县| 施秉县| 苍南县| 祁阳县| 澄城县| 肃宁县| 平阳县| 巴楚县| 双辽市| 九龙坡区|