官术网_书友最值得收藏!

1.2.3 大數據對機器學習的意義

結合大數定律和機器學習框架,可推導出大數據對機器學習的價值所在,即大數據可以解決機器學習中的兩難問題。

上述的推導證明,強大的模型假設不一定是好事,因為越強大的模型意味著越大的增長函數M(H,N),需要更多的數據才能滿足學習的條件(大數定律生效)。機器學習的終極目標是減少Eout(在未知樣本上的錯誤),而Eout可以理解成Ein和(Eout-Ein)兩部分。更強大的模型可以使Ein更小,但如果供給機器學習的數據不足,它往往會使(Eout-Ein)很大,從而達不到很好的Eout。這個兩難關系如表1-2所示。

表1-2 兩難關系說明,假設空間M過大或過小均會導致問題

Ein很小意味著可得到一個更精確的統計結果,(Eout-Ein)很小意味著可得到一個更置信(即可信)的統計結果。實際上,這兩個目標經常互相打架,即使不了解機器學習,在日常的數據分析和統計中也會經常遇到這一問題。

案例8 抽樣調查全國3000名客戶,調查內容包括性別、年齡、居住地三項基本信息以及他們對鞋子的喜好。

分析上述數據統計結果,調研人員得出兩個結論:

結論1:中國女性60%喜歡高跟鞋。

結論2:北京海淀區5~10歲的女童,100%喜歡男性化旅游鞋。

這兩個結論是否存在問題?如果存在問題,分別是什么問題?

結論1的問題在于“中國女性”這個分類太寬泛了,基于過粗分類的統計結論通常沒有鮮明的特點。如果將中國女性作為一個整體,會發現她們對各種商品的喜好很平均,十分沒有特點。這是因為將不同喜好的群體混合,混合后的類別會把很多傾向性信息中和掉。比如,一所體育學校設有球類學院,分為足球班和籃球班。因為事先根據學生的喜好分班,所以兩個班級的喜好傾向是極其鮮明的。

如果將兩個班級合并起來分析,球類學院對足球和籃球的喜好非常平均,鮮明的喜好信息被淹沒在“球類學院”這個較粗的分類維度里。

綜上,在結論1中,中國女性這個目標用戶群過粗,這導致不同類型的女性對不同鞋子的偏好被淹沒了,匯總后的喜好表現得很平均,統計結論很不精確。但只有面向喜好鮮明的細分市場,才可以有針對性地提供差異化的商品或服務,從而具備較高的商業價值。

結論2聽起來很好,完全沒有結論1的問題。統計分類很細,喜好非常鮮明,極具商業價值。基于該結論,在北京海淀區開一家專門向5~10歲女童銷售男性旅游鞋的鞋店,相信一定會大賣。其實,這是一個錯誤的結論,它是基于1個樣本統計得到的,存在統計不置信的問題。假設樣本是我鄰居家的小女孩,她生性活潑,尚沒有清晰的性別認識,喜歡將自己打扮成男孩,喜歡男性化旅游鞋,但這并不代表該年齡段的所有女孩均如此。將3000個樣本放在由三個維度(性別——2個分類;年齡——20個分類;居住地——50個分類)切分的數據立方體中,會發現大部分格子里只有0或1個樣本數據。基于1個或少量樣本的統計結論,往往是不置信的。換句話說,如果未滿足大數定律的條件,即使是以高概率得到的結論也不可信!

既然用過粗的維度觀測數據會造成結論不準確、無價值,而用非常細致的維度觀測數據又會造成結論不置信,那么何種解決方案是最妥當的呢?答案是:在細致與置信之間做出合理權衡。一方面分類維度要足夠細致,夠細致才能準確地定位細分群體,不會淹沒有效的信息;另一方面要保證分類中含有足夠的樣本量,樣本量足夠才能使大數定律發揮效應,得到置信的統計結論。在實操中,通常在保證數據置信的前提下,盡量細分數據,以得到更細致、更有價值的統計結論。該過程如案例8中圖所示,如果格子里還有大量的樣本數據,說明觀測維度還可以切分得更加細致。反之,如果格子中的樣本數據很少,那么需要減少切分維度,將不同格子中的樣本數據匯集到一起,以提高結論的置信度。這個權衡貫穿了整個統計學習,在機器學習中也稱為過擬合和欠擬合(或者偏差(bias)過大和方差(variance)過大),其同樣是權衡“拆得過粗得到的統計結論無法精準地描述事物規律”與“拆得過細得到的統計結論無法置信地描述事物規律”。

為何特征(切分的維度)多了,得到置信的統計結論需要更多的數據

我某次出于好奇,向身邊的女性朋友咨詢過:“為何女性要買那么多包?”現實中讓女性決定購包的維度有很多,比如:不同的場景(例如商務會談、閨蜜聚會、外出游玩等)需要不同款式的包;不同的衣服需要搭配不同顏色的包,如包的顏色與衣服不能相近,風格要一致;裝不同物品需要不同的包,如裝化妝品的手包、裝錢和卡的錢包、裝平板電腦和手機的挎包、裝小物件的提包;不同的季節需要不同的包,如夏季適合用帆布包,冬季適合用皮包。除此之外,還有諸多決策維度,難以逐一列舉。但對于一位時尚女性來說,不僅不同維度(場景、衣服、用途、季節)組合下需要不同的包,每個維度組合下最好要有幾款可作為備選的包,以便隨時更換來彰顯個人的品味與個性。類似地,如果一個統計模型中可用來切分數據的特征(維度)很多,為了使每個細分場景(某種特征組合)都有足夠多的樣本量,以便大數定律發生效用,進而得到統計置信的結論,那么總體上就需要更多的樣本。特征越多,本質上,機器學習中的模型假設就越復雜。

在大數據時代,該均衡點變得更加優秀。由于數據量足夠大,因此可以擁有更多的數據切分維度(大量特征),而不必擔心置信問題。如上圖所示,無論切分多少次,格子里總是存在足夠多的樣本量。在大量樣本+大量特征的情況下,“統計分析”或“模型學習”得到的信息可以非常細致且非常置信,從而使這種模式有著遠超人工經驗的巨大價值。例如北京西二旗地區知識分子家庭的5~10歲的女童喜歡帶電光的耐克跑鞋,那么對女童和鞋子的描述都可以非常細致。如果說傳統統計學更注重研究如何從抽樣個體的統計指標去推測全體,那么今天的統計學則更關注如何在置信的前提下把全體數據盡量拆細,得到更細致的個體結論。這就是大數據對機器學習的價值,它釋放了模型的學習能力(使用更強大假設的能力)。

大樣本使大特征成為可能,大特征使大樣本發揮價值。

——大數據時代的個人總結

主站蜘蛛池模板: 焦作市| 濮阳市| 习水县| 彭州市| 文山县| 临江市| 梁平县| 宣武区| 大石桥市| 仙桃市| 新乐市| 全州县| 道孚县| 西华县| 舞阳县| 微山县| 象州县| 永登县| 镇巴县| 济阳县| 泉州市| 柘荣县| 上栗县| 塔河县| 古浪县| 巴南区| 高阳县| 宁陕县| 海林市| 民和| 平泉县| 武汉市| 朔州市| 澄迈县| 惠水县| 仁化县| 楚雄市| 永济市| 乐平市| 同仁县| 湘西|