官术网_书友最值得收藏!

1.7 反復移動就會出現U分布

大數據中常見的遞降U分布的本質是什么?下面將用圖像直觀地進行介紹矢野和男,渡邊淳一郎,佐藤信夫,森脅紀彥.大數據的無形之手:商業和社會現象能用科學調控嗎(「ビッグデータの見えざる手:ビジネスや社會現象は科學的に制御できるか」).日立評論,95卷6/7號,pp432-438,2013.

首先,我們看一下由30×30(900個)的方格構成的網格圖(圖1-3)。假設有72,000個小球,我們將其完全隨機地放到圖中筆者參考大澤文夫《大澤流 手工統計力學》(“大沢流 手づくり統計力學”名古屋大學出版會)一書中介紹的、用粒子的移動導出玻爾茲曼分布的方法,將此方法普遍化,應用于社會行為研究方面。

圖1-3 網格中散布的小球在正態分布和U分布中的差異。本書是用30×30的網格實驗進行解說的,但為了清晰起見,我們只擴大展示了其中一部分。并且,要展示所有小球的話會有重疊,所以我們把每10個小球整合為1個小球顯示在圖中。

如果用電腦模擬實驗,那么可以隨機生成小球的位置。首先生成水平方向(x)和垂直方向(y)上1~30個隨機數,然后把小球放在(x, y)的位置上。這樣一來,一個方格中平均會有80個小球,80(個)×30(格)×30(格)=72,000(個)。

這張網格代表了你的1天,每個方格代表1天中的1分鐘。網格圖中的方格總數是900,假定1天有900分鐘(15小時)的活動時間,則方格總數與活動時間相對應。此外,方格中的小球個數代表胳膊1分鐘的活動次數。每個方格中平均有80個小球,即假定胳膊1分鐘平均活動80次。現實生活中,雖然活動時間和胳膊的平均活動次數會因人和狀況的不同而有所變化,但是也會出現1分鐘80次的活動次數(即使換一個數字,也不會對以下結果造成影響)。

如圖1-3所示,雖然每個方格中的小球數量不同,但是基本平均在80個左右。這一統計分布即為正態分布(專家稱之為“泊松分布”,以區別于正態分布,但是兩者基本相同,因此本書不作區分)。

通過擲骰子的方法也可以得到基本相同的結果,只不過花些時間罷了。在每個方格中擲23次骰子,得出的點數總和基本以80(準確說是3.5×23=80.5)為中心上下波動。這和剛才的模擬結果相同,呈現正態分布。

現在我們只是隨機分配小球,每個方格中的小球不會自主地從一個方格移到另一個方格。接下來,我們在方格之間移動一下小球,看看情況如何。

我們隨機選擇兩個方格,將其中一個方格中的1個小球移到另一個方格中,然后進行反復移動。大家可能覺得,原本就是隨機放置的小球,方格也是隨機選擇的,即使移動小球,結果也不會有所變化。我曾經給很多人出過這道題,所有人的回答都是“結果不會變”。

但是,事實勝于雄辯。請看一下圖1-3中位于下面的圖。這張圖是“反復移動”10萬次后的結果。反復移動的次數越多,小球的分布就越趨向“斑點狀”。其實,因移動而產生的“斑點狀”才是現實社會的大數據中常見的遞降U分布。也就是說,我們將小球按照從多到少的順序,統計其數量分布情況,會發現數據呈現U分布。U分布的制作方法是非常簡單的。

與U分布相比,原來的正態分布整齊劃一。從結果來看,兩者的差異很明顯,正態分布是隨機的、均勻的,而遞降分布是散亂的“斑點狀”——比徹底的隨機還要散亂。這話聽起來有點矛盾,但事實就是如此。其實,基于同一隨機數的隨機性,產生的是十分均勻、整齊的狀態。而U分布中允許出現“不均勻”,是一種更自由的狀態。

U分布是將玻爾茲曼分布普遍化的產物,但即使是專門研究物理的人,恐怕也是第一次如此直觀地看到玻爾茲曼的空間分布。至少筆者在任何一本統計物理學的書籍上,都沒有見過這樣的圖。翻開統計物理學的書籍就會發現,玻爾茲曼分布公式(以溫度的倒數為指數的指數函數公式)隨處可見。但是,只有公式的話,我們完全無法想象其空間分布究竟是怎樣的。

氣體中的分子之間經常相互碰撞,與此同時會交換彼此的能量。這類似于方格之間小球的反復移動,因此我們也就不難理解,分子能量的分布也與U分布相同,是呈遞降的玻爾茲曼分布。

從結果來看,遞降U分布中,小球集中于少數幾個方格中。定量分析的話,在前30%的方格中,小球的數量占總體的70%。我們經常談到“二八定律”,即前20%中集中了整體的80%。例如,人們經常說20%的員工取得了80%的銷售,20%的企業創造了80%的GDP等。雖然這個U分布沒有完全集中到20/80這種程度,但也已經相當集中了。

那么,小球的分布呈現斑點狀意味著什么?打個比方來說,是方格和方格之間產生了“貧富差距”。分配小球時,自然而然就會產生兩種方格:一種是集中了很多小球的富裕方格,另一種是沒怎么分到小球的貧窮方格。之所以會產生這種差距,是因為小球在方格和方格之間反復移動。

有趣的是,明明每個方格都是“機會均等”的,小球卻集中到了少數特定的方格中。也就是說,即使“機會均等”,產生的結果也不平等。即使是均等地“反復移動”,也會產生不平等的結果。

我們必須記住的是,小球集中到特定的方格中,不是由方格自身的特殊性,比如能力差距等導致的,而僅僅因為均等的反復移動。即使我們不做方格之間存在能力差距這種假設,由于概率問題,還是會導致差距。也就是說,“反復之力”造成了這種“貧富差距”。

說句題外話,從經濟貿易出現起,自給自足的人類之間就產生了貧富差距這種原始的模型。

我們往往以為凡事必有因。總是以為富裕的人和不富裕的人之間,在行動方面應該存在差異,然后去探求這一結果背后的原因。但實際上,當發生了很多次反復移動,即使沒有確切的原因,其結果分配還是會明顯偏向一方。我們必須記住,資源(小球)分配不均絕不是因為能力和努力的差異,而是由“反復移動”產生的統計力量導致的。在現實社會中,不僅有自然產生的分配差距,還存在能力差距,因此貧富差距進一步擴大。

在“反復之力”的作用下,資源分配的差距闡釋了人類廣范圍的行動和社會現象。而將此上升為理論依據的就是U分布。

在此,我們需要考慮一個簡單的問題——小球的分配。隨機反復移動小球的話,會出現怎樣的結果呢?這個問題我問過幾十個人,其中很多人是理科博士。然而,讓人驚訝的是,這么簡單的問題卻讓他們調動了全部的經驗和知識,最終也沒能預測到結果。很多人回答,小球的分配還是隨機的,沒有變化。這個結果明確表明,對于包含“反復運動”的現象,我們的預測能力是何其欠缺。人類有一種強烈的傾向,即總想借助因果關系來認識世界。但是,因果關系這種思考方式,可能并不適合預測多次反復后的結果。

主站蜘蛛池模板: 仪陇县| 安塞县| 潜江市| 汶川县| 尖扎县| 睢宁县| 招远市| 潼南县| 江孜县| 塘沽区| 乐平市| 肥城市| 天津市| 东光县| 寿宁县| 沂水县| 云浮市| 会昌县| 监利县| 察雅县| 龙门县| 唐海县| 梁山县| 武定县| 吉木萨尔县| 克山县| 衡山县| 肃北| 上栗县| 勃利县| 乌拉特前旗| 康平县| 孟连| 重庆市| 太湖县| 兴国县| 普陀区| 德安县| 聊城市| 民权县| 贺州市|