官术网_书友最值得收藏!

數據真正的精髓,還不是數據量的爆炸性增長和數據形態的多樣性,而是數據與數據之間關聯形式的變化。以前的數據與數據,就像漂浮在大海上的一個個孤島,隔水相望卻沒有途徑互相到達。而現在,一方面由于海島自身面積的增大——得益于數據量的增加,另一方面由于海上交通工具的發明——得益于打通不同數據的技術和商業努力,連接不同島嶼之間的通路開始建立。大海孤島的圖景正在向著平原上阡陌交通的不同村落快速過渡。

地點數據

舉個例子來說,“中關村云基地”是位于中關村軟件廣場上的一棟不高的辦公樓。在北京的智慧城市建設項目中,我們能夠找到關于這棟樓的文本描述;通過百度、高德、騰訊等地理信息數據接口,我們可以定位它的經緯度范圍;通過北京市公安局公安交通管理局提供的地面磁感圈和攝像頭的數據,我們能夠知道有多少車輛通過了這棟樓、有多少車輛停在這里(車的主人極有可能是在這里辦公),大部分車輛的車牌和車型通過攝像頭數據都是可以識別的;通過順豐、申通等快遞公司的快遞單,我們知道與這棟樓相關的物流情況;通過進出這棟樓的智能手機設備標識碼及GPS數據,我們可以估計出在這棟樓里面工作的員工人數、他們大致的消費水平、他們在北京居住在哪些地方,等等;通過分析互聯網招聘信息和招聘地址的經緯度范圍,我們能夠找到和這棟辦公樓里的企業有關的招聘信息;通過對微博或簽到等APP經緯度的分析,我們能夠挖掘一些到過這棟樓并且簽到的人……未來,Google眼鏡還會泄露出這棟樓里里外外的圖片和文本信息,從而我們可以自動地用這些圖片和文本在互聯網上搜索到相關媒體和論壇對這里的報道或討論。

個人數據

對于個人而言,我們能夠得到的數據種類更多。

通過手機,我們可以獲得一個用戶的短信和通話關系,他每天移動的軌跡——從而我們知道他有哪些朋友、住在哪里、工作在哪里、喜歡去哪里;通過社交媒體,我們可以獲得一個用戶的在線好友,他感興趣的社區信息,以及他分享、評論和發布的文本和圖片——從而我們知道他的社會影響力、興趣愛好、是不是一個善于溝通的人;通過電子商務網站的記錄,我們可以獲取一個用戶瀏覽、收藏、購買的數據——從而我們知道他的購買偏好、價格偏好、消費水平;我們甚至還能夠追蹤到一個人瀏覽網頁的記錄、論壇發言的記錄、訂閱報刊雜志的記錄、使用手機應用的記錄……當這些記錄的關聯顯露出來,讓我們知道,最近經常瀏覽孕嬰網站并且參加了好幾個準媽媽社區的小尼的老公小瑪所使用的手機設備號,我們就能夠通過手機推送廣告,給小瑪發送孕媽媽保健品的優惠券,而不是無窮無盡的房地產廣告。廣告商因為更精準的廣告而獲得收益,用戶也因為接收到有價值的信息而非純垃圾廣告提高體驗!

當然,在這些價值中,如何保護用戶自身隱私數據的安全,是一個非常要害的問題。這本書不打算深入探討這個問題,我們將來或許會專門探討大數據帶來的安全、隱私和倫理的沖擊與對策!

針對地點,我們往往通過名稱和經緯度范圍進行數據之間關聯的挖掘和分析。針對個人的地點數據要稍微復雜一些,有時候需要利用手機上的設備號識別同一臺手機在不同地方留下的數據軌跡;有時候需要用到個人電腦上植入的存儲在用戶本地終端上的數據(Cookie);有的用戶會在一些平臺上分享自己在其他平臺上的賬號,例如在街旁的主頁上列出自己的微博號,所以可以通過公開數據的爬取獲得一些有價值的關聯;百度、騰訊和B-ShareB-Share是一款關于web2.0的社會化分享按鈕工具,用戶瀏覽網站內容的同時可以把自己所感興趣的內容通過一系列社會化關系網絡分享、推薦給自己的好友。——編者注等企業提供了Open IDOpen ID是一個以用戶為中心的數字身份識別框架,它具有開放、分散性。——編者注的便利,讓用戶可以用一個ID管理多個平臺的賬號,這是天然的可以打通數據的渠道。

最近,微軟亞洲研究院的一篇研究論文顯示,相當一部分用戶在不同平臺中使用一些相同且非常個性化的昵稱,這個昵稱幾乎不可能是偶然的重名重名的概率是可以計算的,重名概率越小,就說明這兩個平臺上的相同昵稱來自同一個人的可能性越大。比如說在一個醫院的病歷上看到“周濤”這個名字,又在通緝犯名單上看到“周濤”這個名字,那么很大可能只是兩個重名的人。但是如果這兩個名字是“西門吹雪”,那么很可能就是一個人。相關的學術論文可以參考J. Liu, F. Zhang, X. Song, Y. I. Song, C. Y. Lin, H. W. Hon, What's in a name?: an unsupervised approach to link users across communities, In Proceedings of the sixth ACM international conference on Web search and data mining(WSDM'2013),ACM Press,2013,pp.495-504。。比如我在科學網博客的賬號是pb00011127,而在新浪微博的賬號是super00011127,但凡包含00011127這個號碼的,很有可能是和我相關的賬號,因為這個號碼比較獨特。利用這種方法,可以通過公開爬取的昵稱打通不同平臺上的一部分數據。

沒有什么普適化的方法能夠一下子打通所有數據,所以,挖掘數據的關聯和儲備海量數據一樣,也是一個由少而多逐步積累的過程。有趣的是,即便沒有打通全部的數據,僅僅是一部分數據的打通也很有價值,它能夠讓我們了解經常上某某論壇的人有何種購物偏好,什么類型的社交關系對于什么類別的商品銷售可以起到促進作用,等等。這些知識本身就可以應用到很多在線服務中,提高精確度。

剛才我講的都是屌絲級別的打通手段,如果你足夠富有,可以像阿里入股新浪、高德和多盟一樣,直接通過資本運作的方式,把具有戰略關聯的數據方緊密結合起來——內部打通就太容易不過了。

數據與數據,1+1遠大于2

與人和地點相似,針對一款游戲、一家中小企業、一個網站、一種產品,等等,都能夠找到來自不同源頭的數據,這些數據圍繞一個個體關聯起來,可以產生一加一遠大于二的價值。進一步地,這些不同個體之間也能夠產生關聯,比如我們通過手機的GPS信號和簽到信息,就能夠知道哪些人去過哪些地方,從而把地點和人關聯起來;通過銷售記錄能夠知道哪些人購買過哪些產品,從而又把產品和人關聯起來。這種不同個體之間的關聯,以及針對同一個個體不同數據源之間的關聯,將徹底改變以前我們熟悉的商業模式。

大數據創新實踐

用購買記錄給用戶畫像

通過用戶在電子商務網站和資訊媒體上瀏覽、收藏和購買的記錄,我們能夠知道一個用戶的住家或者工作的地點(通過包裹的寄達地),從而能夠評估他住家或工作地點的經濟水平以及搬遷頻繁程度(是否經常更換本人收包裹的地點),以及他的購買偏好和價格水平。通過這個用戶在社交媒體的種種行為,我們能夠估計他的社會影響力。這些信息可以成為銀行在發放信用卡和批準個人信貸時的重要參考。剛才的社交媒體行為中如果有足夠多的文本信息(原創博文、評論、回復,等等),還可以用來判斷一個人有沒有抑郁癥傾向、是否喜歡合作和溝通、是一個“大憤青”還是“大奮青”,等等。利用一個人的手機和簽到行為,可以判斷一個人主要的地理活動區域。這些信息結合這個人的簡歷,可以很大程度上幫助人力資源部門在招聘的時候做出快速準確的決定。通過分析一個產品的客戶以及在互聯網上提到過該產品的所有可能感興趣的用戶(條件許可的情況下,還可以分析競爭產品的潛在用戶),再結合手機和簽到數據,就可以得到感興趣用戶的地理分布,從而指導更精準的地面廣告投放;結合互聯網網頁瀏覽數據,就可以得到感興趣用戶主要登陸的網站,從而指導更精準的互聯網廣告投放;結合人口統計學數據,就可以得到感興趣用戶的畫像,包括年齡、職業、性別,等等,從而指導更好的產品設計和市場策略……

如果有些讀者足夠無聊而又有足夠多的數據,你們應該能夠在互聯網和微博上搜索到本書的出版商——湛廬文化最近幾年舉辦的活動,然后利用百度地圖的接口,你們就能知道這些地方的經緯度范圍。如果你有了運營商或者移動互聯網廣告平臺的數據(后者比較容易獲得),就可以從數億智能手機用戶中挖掘出參加湛廬文化的活動特別特別多的幾個人(顯然,他們應該是湛廬文化的工作人員),然后你會發現這幾個人的工作地點是在我開頭提到的“中關村云基地”。這個時候,你就基本可以確定,湛廬文化的所在地是在“中關村云基地”。這個辦法很笨,因為你百度一下就能知道這個信息,不過它描述了一種蜿蜒曲折獲得更多信息的可能的道路,這條道路連接了很多坐落在各地的數據村落,它們已經不再是孤島!

另外,如果你繼續努力積累數據,進行分析,你會發現剛才我說的那些數據地理分布的模式發生了重要的變化,這實際上是因為湛廬文化已經搬到了一個新的地址。如果你是一個關心湛廬文化并且擁有無窮數據資源的人,你就可以比所有信息更新更快地發現這個變化。

上面的例子聽起來似乎還只是設想,但是我想特別強調的是,這些都是完全可以實現的案例,而且已經實現了。本文的后面會以很多商業實踐的詳細案例,向大家展示一加一之后產生的可觀甚至可怕的效果。

再大的數據集,再豐富的數據形態,如果以孤島的形態存在,閉關自守,不和外面的世界溝通,那都不能叫作大數據!就好像在工業時代,一個閉關鎖國的國家,例如慈禧統治下的中國,實在很難叫作一個“大國”,雖然它面積足夠大,人口足夠多。類似地,電信運營商、金融機構,等等,都掌握了大量有價值的數據,如果它們總是以數據隱私、安全等借口拒絕任何形式的數據開放共享(讀讀清政府的公文,你會發現,借口永遠俯拾皆是)那么死守孤島的后果就是既拖累大家,又葬送自己。在技術革命的巨輪下,一個巨頭的死亡很可能比大家估計的還快,只要想象一下從黃花崗的第一槍到溥儀下詔退位,時間短得嚇死你!反過來,一個小國家如果開放,在新時代崛起并建立統治地位,也未嘗不可能。總結起來,我認為大數據是基于多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學范式、教育理念、生活方式和觀念形態上的顛覆性變化的總和。它絕不僅僅是某些特定技術和需求的變化,而是代表一種新的理念。在本書接下來的內容中,我將盡力展現大數據對于商業創新在理念和實踐方面的革命性影響。未來若有機會,再給大家介紹大數據在科學、教育、決策、生活和思想等方面的影響。

加入“廬客匯”與愛讀書的人相遇

掃碼關注“廬客匯”,回復“為數據而生”,直達周濤教授精彩視頻,了解更多有關大數據的創新與實踐。

主站蜘蛛池模板: 黄龙县| 吉水县| 阳城县| 外汇| 合江县| 化隆| 西青区| 保定市| 乌什县| 法库县| 邳州市| 山阴县| 隆德县| 修文县| 开封县| 高密市| 仁布县| 会同县| 固原市| 平和县| 安西县| 临江市| 综艺| 平和县| 南通市| 绥江县| 德安县| 富平县| 安福县| 即墨市| 蛟河市| 潮州市| 建水县| 凌源市| 蓝山县| 莫力| 巴马| 教育| 肇东市| 泌阳县| 涟水县|