官术网_书友最值得收藏!

警察與小偷的博弈

是不是所有博弈都存在一個純策略(指參與者在其策略空間中選取的唯一確定的策略)的納什均衡點呢?答案是否定的。除了上面敘說多次的、大家比較熟悉的純策略均衡點外,有的博弈并沒有一個確定的、唯一的策略,而是存在一個混合策略(指參與者采取的不是確定的唯一的策略,而是在其策略空間中以概率來選擇不同策略)均衡點。下面我們將以警察與小偷的博弈為例,對混合策略均衡點進行說明。

某小鎮只有一名巡邏警察,他一個人要負責整個鎮的治安。假定該小鎮主要分為A、B兩區,A區有一家建設銀行,B區有一家金銀首飾店。再假定這個小鎮有一個小偷,要對該鎮實施偷盜行為。因為沒有分身術,警察一次只能在一個區巡邏;而對于小偷來說,一次也只能去一個地方行竊。

假定A區建設銀行需要保護的財產為2萬元,B區首飾店的財產價值1萬元。若警察在A區巡邏,而小偷也恰巧選擇去了該地,小偷就會被警察當場抓住,該區建設銀行的2萬元財產就不會損失;若警察在A區巡邏,而小偷卻選擇去了B區,因沒有警察的保護,小偷偷盜成功,B區首飾店的1萬元財產將分文不剩,全落進小偷的腰包。

在這種情況下,警察要怎樣巡邏才能使效果最好呢?

如果按照先前的思路——只能選取一個確定的唯一的策略,那么明顯的做法是:警察在A區巡邏,可以保護該區建設銀行的2萬元財產不被偷竊。而小偷去B區,偷竊一定成功,B區首飾店的1萬元財產盡歸小偷所有。也就是說警察的收益是2萬元,而小偷的收益是1萬元。

但是,這種做法是警察的最佳策略嗎?存不存在一種更好的策略或者說能不能對這種策略進行改進呢?

若警察在A區或B區巡邏,而小偷也正好選擇去A區或B區,則小偷無法實施偷盜,此時警察的收益為3(保住A區建設銀行和B區首飾店共3萬元財產),小偷的收益為0(沒有收益),記作(3,0)。

若警察在A區巡邏,而小偷去B區偷盜,此時,警察的收益為2(保住A區建設銀行2萬元財產),小偷的收益為1(成功偷盜B區首飾店1萬元財產),記作(2,1)。

若警察在B區巡邏,而小偷去A區偷盜,此時,警察的收益為1(保住B區首飾店1萬元財產),小偷的收益為2(成功偷盜A區建設銀行2萬元財產),記作(1,2)。

警察與小偷的收益可寫成如下的收益矩陣:

由上面分析,我們可以得出這個博弈沒有純策略納什均衡點,只有混合策略均衡點。在混合策略均衡點下,雙方的策略選擇是其最優策略選擇。

此時,警察的一個最佳選擇是:用抽簽的方法決定去A區巡邏還是去B區巡邏。因為A區建設銀行的財產價值是B區首飾店的兩倍,所以用兩個簽(比如1、2)代表去A區巡邏,一個簽(比如3)代表去B區巡邏。如果抽到1、2號簽,就去A區巡邏;如果抽到3號簽,就去B區巡邏。這樣警察就有2/3的概率去A區巡邏,1/3的概率去B區巡邏,其概率的大小與巡邏地的財產價值成正比。

而小偷的最優選擇也是同樣以抽簽的辦法決定去A區行竊還是去B區偷盜,只是與警察相反:小偷抽到1、2號簽去B區行竊,抽到3號簽去A區行竊。那么,小偷就有1/3的概率去A區偷盜,2/3的概率去B區偷盜。

上面所說的警察與小偷所采取的策略便是混合策略。

按上述混合策略,警察的總期望收益是7/3萬元,與只巡邏A區得2萬元的收益的策略相比,明顯得到了提高。

原因如下:

當警察去A區巡邏時,小偷有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏A區的期望收益為7/3(1/3×3+2/3×2=7/3)萬元;當警察去B區巡邏時,小偷同樣有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏B區的期望收益為7/3(1/3×1+2/3×3=7/3)萬元。警察的總期望收益為7/3(2/3×7/3+1/3×7/3=7/3)萬元。

同理,我們也可知小偷采取混合策略的總期望收益是2/3萬元,比得1萬元收益的只偷盜B區的策略(前提是警察只巡邏A區)要差。

當博弈一方所得為另一方所失時,對于博弈的任何一方而言,此時只有混合策略均衡點,而不可能有純策略的納什均衡點。

主站蜘蛛池模板: 舟曲县| 虹口区| 离岛区| 南郑县| 曲阜市| 镇康县| 慈溪市| 河北省| 阿巴嘎旗| 天等县| 五指山市| 汶上县| 奈曼旗| 山丹县| 台中市| 鲜城| 诸暨市| 涡阳县| 开江县| 泸定县| 卢龙县| 邹平县| 长岭县| 乐山市| 莎车县| 丘北县| 旬邑县| 澄迈县| 米泉市| 木里| 奇台县| 德江县| 册亨县| 保山市| 孟州市| 珲春市| 潜山县| 桃园县| 红安县| 河曲县| 清远市|