第三章一場游戲一場夢——博弈中的經濟學

兩個嫌疑人為什么都自愿坐牢？

李德裕是晚唐時期著名的政治家，唐敬宗時，李德裕任浙西觀察使。在浙西期間，曾經處理了一樁棘手的案子。

當地甘露寺的主事僧狀告前主事私吞寺里的錢。這位主事不僅拿出了交割文書為憑，還有一幫僧人為其作證。前主事僧大呼冤枉，卻又拿不出被冤枉的證據。案子到了李德裕之手，李德裕便覺得可疑。

有人私下告訴李德裕說，那些交割文書是假的，其實并沒有什么金子被私吞了，只是眾僧不滿前主事僧，故而串通一氣誣陷他罷了，只是這個案子被他們搞得人證俱全，要想為前主事僧申冤很困難。

李德裕把作證的僧人全部叫來，問他們是不是都看見交給前主事僧的金子了，眾僧回答說都看見了。李德裕便將他們一個個分開，然后每人交給一些軟黃泥，讓他們捏出給前主事僧的金子模樣來。

這些僧人事先誰也沒有想到李德裕會亮出這么一手。于是，作證的僧人捏出的金塊模樣自然不可能是一個樣子，而是什么樣子的都有，他們串通一氣作偽證誣陷前主事僧的事，也就水落石出了。

通過這個故事，我們不禁佩服李德裕的智慧。實際上，在這個故事中，李德裕已經運用到了博弈論中的囚徒困境理論，達到幫助自己破案的目的。

1950年，擔任斯坦福大學客座教授的數學家圖克，為了更形象地說明博弈過程，他用兩個犯罪嫌疑人的故事構造了一個博弈模型，即囚徒困境模型：

警方在一宗盜竊殺人案的偵破過程中抓到兩個犯罪嫌疑人。但是，他們矢口否認曾經殺過人，辯稱是先發現富翁被殺，然后只是順手牽羊偷了點東西。警察缺乏足夠的證據指證他們所犯下的罪行，如果罪犯中至少一人供認罪行，就能確認罪名成立。

于是警方將兩人隔離，以防止他們串供或結成攻守同盟，并分別跟他們講清了他們的處境和面臨的選擇：如果他們兩人中有一人認罪，則坦白者立即釋放而另一人將判8年徒刑；如果兩人都坦白認罪，則他們將各被判5年監禁；當然若兩人都拒不認罪，因警察手上缺乏證據，則他們會被處以較輕的偷盜罪各判1年徒刑。

那么，兩個罪犯會怎樣選擇呢？

囚徒到底應該選擇哪一項策略才能將自己個人的刑期縮至最短呢？兩名囚徒由于隔絕監禁，并不知道對方的選擇；即使他們能交談，也未必能夠盡信對方不會反口。

在困境中任何一名理性的囚徒都會作出如此選擇：

若對方選擇抵賴，自己選擇背叛，會讓自己獲釋，所以會選擇背叛；若對方選擇背叛，自己也要背叛，才能得到較低的刑期，所以還是選擇背叛。

二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場博弈中唯一可能達到的納什均衡，就是雙方參與者都背叛對方，結果二人同樣服刑5年。

這就是博弈論中經典的囚徒困境，可用表5—1表示。

囚徒困境是博弈論的非零和博弈中具有代表性的例子，反映了個人最佳選擇并非團體最佳選擇。雖然困境本身只屬于模型性質，但現實中的價格競爭、環境保護等方面，也會頻繁出現類似情況。

囚徒困境假定每個參與者都是利己的，即都尋求最大的自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為“嚴格劣勢”，理性的參與者絕不會選擇。另外，沒有任何其他力量干預個人決策，參與者可完全按照自己的意愿選擇策略。

以全體利益而言，如果兩個參與者都合作保持沉默，兩人都只會被判刑1年，總體利益更高，結果會比兩人背叛對方、判刑5年的情況好。但根據以上假設，兩人均為理性個人，且只追求個人利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判決均比合作高，總體利益較合作低，這就是困境所在。

囚徒困境的主旨是，囚徒們雖然可以彼此合作、堅不吐實，為全體帶來最佳利益，但在信息不明的情況下，會以為出賣同伙可為自己帶來利益。

單次發生的囚徒困境，和多次重復的囚徒困境結果不一樣。在重復的囚徒困境中，博弈反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時，合作可能會作為均衡的結果出現。欺騙的動機這時可能會被受到懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。