官术网_书友最值得收藏!

第1章 博弈論,策略的選擇

博弈論(Game Theory),看起來玄而又玄,似乎高深莫測,但直譯下來就是游戲理論的意思。不妨說,博弈論就是通過玩游戲而獲得一些人生競爭策略的理論。

在博弈論的所有案例和模型中,囚徒困境無疑是最著名的,可以說,不談囚徒困境,就無從談博弈論。

什么是博弈論?

博弈論,又叫對策論,是研究兩人或多人之間競爭合作關(guān)系的一門學(xué)科。用我們?nèi)粘5恼Z言來說,博弈論就是研究在不同情境下策略選擇的一種理論。它既是經(jīng)濟(jì)學(xué)的一個重要學(xué)科,也是現(xiàn)代數(shù)學(xué)的一個新分支。

在經(jīng)濟(jì)學(xué)上,博弈論是一個非常重要的理論概念,通過使用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型來解決現(xiàn)實(shí)生活中的各種利害沖突問題。具體來說,博弈論是指某個個人或是組織,在一定的環(huán)境條件和規(guī)則約束下,依靠所掌握的信息選擇并實(shí)施各自所傾向的行為或是策略,從中取得相應(yīng)結(jié)果或收益的過程。

博弈論思想古已有之,早在2000多年前,博弈論的原始思想即已萌芽。古代文獻(xiàn)中不乏充滿博弈思維的案例。《孫子兵法》《三十六計(jì)》《三國演義》等等,就不僅僅是軍事著作,而且可以算是很好的博弈論教材,只不過還沒有上升到現(xiàn)代博弈論的層次而已。

博弈論最初主要研究的是象棋、圍棋以及賭博中的勝負(fù)問題。那時候,人們對博弈局勢的把握只停留在經(jīng)驗(yàn)層面上,并沒有向理論層面發(fā)展,其正式發(fā)展成一門學(xué)科則是在20世紀(jì)初。

1928年,美籍匈牙利數(shù)學(xué)家約翰·馮·諾伊曼提出了博弈論的基本原理,并與經(jīng)濟(jì)學(xué)家奧斯卡·摩根斯頓合作,于1944年發(fā)表了《博弈論與經(jīng)濟(jì)行為》一書,提出了合作博弈的基本模型,并將二人博弈結(jié)構(gòu)推廣到n人博弈結(jié)構(gòu)。自此,博弈論被引入了經(jīng)濟(jì)領(lǐng)域,奠定了這一學(xué)科的基礎(chǔ)和理論體系。人們都把諾伊曼和摩根斯頓的這部巨著看作是現(xiàn)代博弈理論誕生的標(biāo)志。

目前,博弈論作為分析、解決沖突和合作的理論工具,已經(jīng)在管理學(xué)、國際政治學(xué)、經(jīng)濟(jì)學(xué)、外交學(xué)和社會學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,為解決不同實(shí)體的沖突和合作提供了寶貴的方法,并日漸發(fā)展成為一熱門學(xué)科。

◇博弈的三要素

任何一局博弈都至少包含以下三個基本要素:

——決策主體

決策主體,又譯為參與者、局中人或博弈者。在一場競賽或一局博弈中,每一個有決策權(quán)的參與者都構(gòu)成一個決策主體。

決策主體的目的是通過選擇行動方案或者戰(zhàn)略以使自己的效用水平最大化。只有兩個決策主體的博弈稱為兩人博弈,多于兩個決策主體的博弈稱為多人博弈。一局博弈中的決策主體可以是自然人,也可以是團(tuán)體:如企業(yè)、國家等。

——策略

策略,又譯為戰(zhàn)略,即決策主體在給定信息的情況下的行動規(guī)則,它規(guī)定了決策主體在什么時候采取什么行動。

一局博弈中,每個決策主體都會選擇實(shí)際可行的、完整的行動方案。一個可行的自始至終地對全局進(jìn)行籌劃的行動方案,稱為這個決策主體的一個策略。如果在一局博弈中決策主體的策略是有限的,就稱為有限博弈,相反則稱為無限博弈。

——效用

效用,又叫作支付,是指在一個特定的策略組合下,決策主體得到的確定效用水平,或者說是期望效用水平。簡單來說,效用就是指進(jìn)行博弈后的收益。

效用是所有決策主體真正關(guān)心的東西,每個決策主體在一局博弈結(jié)束時得到的效用,不僅與該決策主體自身所選擇的策略有關(guān),而且與全部決策主體所取定的一組策略有關(guān)。一局博弈結(jié)束時每個決策主體得到的效用是全體決策主體所取定的一組策略的函數(shù),通常稱為支付函數(shù)。

◇博弈的分類

博弈可以從多個角度進(jìn)行分類。

——按照博弈各方是否同時決策,博弈可以分為靜態(tài)博弈和動態(tài)博弈

靜態(tài)博弈是指在博弈過程中,參與者同時決策或同時行動,或者盡管決策或行動有先后順序,但后行動者并不知道先行動者采取了什么具體的決策或行動。比如說工程招標(biāo)(排除標(biāo)書泄密的違規(guī)行為),其截止日期是6月1日,盡管有的競標(biāo)者在5月上旬就投了標(biāo),有的競標(biāo)者直到5月下旬才投標(biāo),參與者的決策時間有先后之分,但效果卻與同時決策是一樣的。

動態(tài)博弈是指在博弈過程中,參與者的行動有先后順序,并且后行動者可以觀察到先行動者所采取的行動。

——按照參與者對其他參與者的了解程度,博弈可以分為完全信息博弈和不完全信息博弈

完全信息博弈是指在博弈過程中,每一位參與者對其他參與者的策略空間、策略組合及收益信息有完全的了解。

如果參與者對其他參與者的策略空間、策略組合及收益信息了解得不夠確切,或者說并沒有掌握所有參與者的策略空間、策略組合及收益信息,在此種情況下進(jìn)行的博弈就是不完全信息博弈。此時,參與者所能做的就是努力使自己的期望支付或期望效用最大化。

——按照參與者能否達(dá)成約束性的協(xié)議以便集體行動,博弈可以分為合作博弈和非合作博弈

合作博弈是指所有參與者都從利己的角度出發(fā),與其他參與者進(jìn)行談判并達(dá)成具有約束力的協(xié)議或形成聯(lián)盟,參與者在協(xié)議范圍內(nèi)進(jìn)行博弈,其結(jié)果對聯(lián)盟各方均有利。合作博弈主要研究人們達(dá)成協(xié)議時,如何分配合作得到的收益,即收益分配問題。

合作博弈強(qiáng)調(diào)團(tuán)體的理性、效率、公平和公正。典型的合作博弈是某一行業(yè)的寡頭企業(yè)之間的串謀行為,即企業(yè)之間通過公開或者私下簽訂協(xié)議,對各自的價格或產(chǎn)量進(jìn)行限制,以達(dá)到獲取更多壟斷利潤的目的。

反之,不能使其他參與者遵守某一協(xié)議,各參與者只能選擇自己的最優(yōu)戰(zhàn)略的行為,則屬于非合作博弈。非合作博弈主要研究人們在利益相互影響的局勢中如何選擇、決策,使自己的收益最大,即策略選擇問題。

非合作博弈強(qiáng)調(diào)個人理性、個人最優(yōu)決策。下面將要講到的囚徒困境就是典型的非合作博弈。因?yàn)榉呛献魇钱?dāng)今社會中利益博弈的常態(tài),所以非合作博弈是博弈論探討的主要內(nèi)容。

非合作博弈按照參與者對其他參與者的信息掌握程度和博弈各方采取行動是否有先后順序,可以分為四種不同的類型,即完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈。這四類博弈一個比一個精彩,也一個比一個難。

完全信息靜態(tài)博弈——是指在博弈過程中,所有參與者事先達(dá)成一項(xiàng)具有約束力的協(xié)議,制定每個決策主體的行為規(guī)則。如果在沒有外在強(qiáng)制性約束的情況下,各參與者自覺遵守該協(xié)議,沒有人違反協(xié)議規(guī)則,就構(gòu)成一個納什均衡(概念見第2章)。只要有一個參與者違背協(xié)議規(guī)定,則此協(xié)議就構(gòu)不成納什均衡,就不可能自動實(shí)施,不滿足納什均衡要求的協(xié)議是沒有任何意義的。

完全信息動態(tài)博弈——動態(tài)是世間萬物的基本特征,而靜態(tài)只是一種獨(dú)特的理想狀態(tài)。在現(xiàn)實(shí)生活中,當(dāng)一個參與者后采取行動時,自然會根據(jù)先前參與者的選擇而適時調(diào)整自己的決策,而先采取行動的參與者也會理性地預(yù)料到這一點(diǎn),所以也會考慮自己的選擇對其他后行動參與者的影響。

不完全信息靜態(tài)博弈——是指參與者同時采取決策或者說決策雖然有先后順序,但后行動者并不知道先行動者的決策,也沒有機(jī)會觀察先行動者的選擇以調(diào)整自己的決策。每個參與者的最優(yōu)策略只能是在給定自己的類型和他人類型依從策略的情況下,使自己的期望效用最大化。

不完全信息動態(tài)博弈——是指各個參與者采取的決策有先后順序,且后行動者掌握了前者的選擇,獲得了其偏好、策略空間及策略組合等信息,并依此修正自己的決策;而先行動的參與者也知道自己行為的效用對后行動者的影響,也會有意識地選擇某種行動來掩蓋自己決策的真實(shí)目的。

博弈論是一門現(xiàn)實(shí)中非常有趣,理論上又頗有深度的學(xué)問。可以毫不夸張地說,掌握博弈論知識對每一個現(xiàn)代人來說實(shí)在是太重要了。因?yàn)樵诂F(xiàn)實(shí)社會中,每個人都在試圖使自己的利益最大化,而在取得利益的過程中,往往會產(chǎn)生矛盾與沖突。利益均衡的實(shí)現(xiàn)主要取決于各自的策略選擇,而策略選擇問題實(shí)際上就是博弈論的本質(zhì)所在。

囚徒困境:坦白還是抵賴?

囚徒困境最早是由美國普林斯頓大學(xué)數(shù)學(xué)家塔克于1950年提出來的。他當(dāng)時編纂了一個故事,意在向斯坦福大學(xué)的心理學(xué)家們解釋什么是博弈論。后來經(jīng)過發(fā)展,囚徒困境成為了博弈論中最著名的案例之一。

所謂囚徒困境,大意是這個樣子的。

有一天,某富翁在家中被殺,財(cái)物被竊。警方在偵破此案的過程中,抓到了湯姆、杰克兩個犯罪嫌疑人,并從他們的住處搜出了被害富翁家中丟失的財(cái)物。面對呈現(xiàn)在眼前的物證,他們承認(rèn)了自己的偷竊行為,但卻矢口否認(rèn)殺害富翁,辯稱是先發(fā)現(xiàn)富翁被殺,然后他倆只是順手牽羊偷了點(diǎn)兒東西。

針對兩人的狡辯,警方對他們進(jìn)行了隔離審訊。為了分化瓦解他們,檢察官分別對兩人說了以下一段話:

本來你們的偷盜罪證據(jù)確鑿,可以就此判你們1年刑期。但是,按照將功贖罪制度,如果你主動坦白并且揭發(fā)同伙的殺人罪行,我們將對你進(jìn)行從寬發(fā)落,判你無罪釋放,但你的同伙要被判30年刑期;如果你頑抗到底,拒不坦白,而被同伙檢舉出你的殺人行為,那么你就要受到嚴(yán)懲,將被判刑30年,你的同伙將被無罪釋放;當(dāng)然,如果你們兩人都坦白,那么你們都將只被判15年刑期。

在這里,博弈的決策主體——湯姆和杰克各有兩個選擇,即坦白和抵賴。

這兩個嫌疑犯該怎么辦呢?他們面臨著兩難的選擇——坦白還是抵賴。顯然最好的選擇是兩人都選擇抵賴,都得到最好的結(jié)果——只判刑1年(殺人罪按照疑罪從無原則,證據(jù)不足無法成立,只能以偷盜罪各判每人1年刑期)。但是由于兩人處于隔離的情況下,沒有串供的條件,所以他們不得不仔細(xì)考慮對方可能采取什么策略,以及對方采取的策略對自己有什么影響。

心理較量就這樣開始了,湯姆和杰克都是絕對精明的人,都只在乎減少自己的刑期,并不關(guān)心自己的選擇會對對方產(chǎn)生什么影響,對方因?yàn)樽约旱臎Q策又將被判多少年刑期。

湯姆會這樣推理:假如杰克選擇抵賴的話,我只要坦白,馬上就可以無罪釋放,獲得自由,而我若抵賴則要坐牢1年,顯然坦白比抵賴要劃算得多;假如杰克選擇坦白的話,我若抵賴,則要坐30年牢,坦白卻只坐15年牢,顯然還是坦白為上策。所以說,無論杰克選擇抵賴還是坦白,我的最佳選擇都是坦白,還是坦白交代了吧。

同樣,杰克也跟湯姆一樣會算計(jì),也會如此推理。

囚徒困境之所以稱為困境,就是因?yàn)檫@局博弈的最終結(jié)果對兩個參與者來說都是最壞的,兩個嫌疑犯雙雙選擇坦白,結(jié)果皆被判刑15年。這對他們個人來說都是從自身利益出發(fā)的最佳選擇,符合他們的個體理性選擇。因?yàn)樘拱捉淮呖赡軙粺o罪釋放,顯然比自己抵賴可能會獨(dú)自承受30年刑期要好。而原本對雙方都有利的策略——兩個人都抵賴,每人被判1年刑期就不會出現(xiàn)。

囚徒困境是典型的非合作博弈的范例,為我們探討合作是怎樣形成的提供了極為形象的解說方式,其產(chǎn)生不良后果的原因是兩個嫌疑犯都從利己目的出發(fā),最終導(dǎo)致?lián)p人不利己,合作沒有產(chǎn)生。反過來我們就可看到:彼此達(dá)成合作是最好的利己策略,但合作必須符合以下黃金定律:“己所不欲,勿施于人。”在此基礎(chǔ)之上的合作才能形成一個和諧的、良好的社會環(huán)境。

在囚徒困境中,最好的策略直接取決于對方所采用的策略,取決于對方所采取的策略為發(fā)展雙方合作留出多大的余地。獨(dú)立于對方所用策略之外的、從利己目的出發(fā)的、最好的決策是不存在的。

實(shí)際上,囚徒困境是現(xiàn)實(shí)生活中許多現(xiàn)象的一個抽象概括,有著廣泛而深刻的意義。同一行業(yè)不同企業(yè)之間激烈的價格競爭就是囚徒困境的典型現(xiàn)象。在價格博弈中,只要雙方都以對方為敵手,只關(guān)心自己的利益,那么不管對方采取怎樣的決策,自己采取低價策略總會占便宜,就如同囚徒困境中的犯罪嫌疑人始終認(rèn)為自己坦白為最佳決策一樣,這就促使雙方都采取低價策略。如可口可樂公司和百事可樂公司之間的價格競爭、各大航空公司之間的價格戰(zhàn)等等。

如果雙方進(jìn)行合作,共同制定比較高的價格,就可以避免無休止的價格大戰(zhàn)并獲得較高的利潤。但是這些企業(yè)往往處于利益驅(qū)動的囚徒困境之中,雙贏也就成了泡影。不同企業(yè)之間五花八門的價格聯(lián)盟總是非常短命,原因也就在這里。

合作,有時是利益需要

農(nóng)村某地有一個只有上官、歐陽兩戶人家的小居民點(diǎn)。由于地處偏僻,交通不便,兩戶人家與外界的交流十分困難,急需修一條通向外界的公路。假設(shè)修這條路的成本為4個單位,每戶人家從修好的這條路上獲得的好處為3個單位。如果沒有中間人協(xié)調(diào),上官、歐陽兩家就各自打著自己的小算盤:

若兩家共同出錢聯(lián)合修路,每家平均分?jǐn)傂蘼烦杀?個單位,則每戶人家獲得的好處為1(3-2=1)個單位。當(dāng)只有一戶人家出錢修路而另一家坐享其成時,修路的那戶人家付出4個單位的成本,卻只得到3個單位的好處,獲得的純盈利為-1(3-4=-1)個單位,也就是得不償失,倒貼1個單位,結(jié)果是虧損的;而坐享其成的一家卻可以使用修好的公路(修路人并不擁有道路的占有權(quán),總不能因?yàn)樾蘖寺肪筒蛔屶従幼撸装撰@得3(3-0=3)個單位的好處;如果上官、歐陽兩家都不修路,兩家的純盈利皆為0。歸納起來,是否修路的得失情況如圖所示:

對上官家來說,若歐陽家修路,我家也修路,會獲得1個單位的好處,而我家不修路,則會獲得3個單位的好處,顯然修路是劣勢策略;若歐陽家不修路,我家修路,則凈虧損1個單位,而我家不修路,則不贏也不虧,修路還是劣勢策略。因而上官家決定不出錢修路。同理,歐陽家也會選擇不修路。最終修路博弈的結(jié)局將是:兩家都不動手,大家都得零。這就應(yīng)了英國歷史學(xué)家麥考萊的一句話:“大家的事情反而無人管。”

一般情況下,若上官只有歐陽一家鄰居,歐陽也只有上官一家鄰居,他們兩家多半會互幫互助,好好商量修路的問題,合力把路修好,大家都得到方便。但是如果出現(xiàn)極端情形,如兩家有仇,那就另當(dāng)別論了。但是,這兩種情形都不在博弈論討論的范圍之內(nèi)。如果不附加說明,博弈論討論所牽涉的參與者,都是經(jīng)濟(jì)學(xué)上的理性人:他們并沒有私人恩怨,也不是世代友好,而只是具有自私本性但并不刻意損害他人利益的人類一員。

公共品和私人品的性質(zhì)不一樣。私人品是純屬私有私用,別人很難占到什么便宜。但公共品就不一樣了,不管由誰提供出來,大家都可以共享。典型的如公園里的長椅,只要有人出錢出力設(shè)置好了,所有行人都可以坐下休息,哪怕他沒有為此做出絲毫貢獻(xiàn)。那么,這長椅由誰來設(shè)置呢?恩惠于大家的公共事情又由誰來管呢?

這就是公共品供給的囚徒困境:如果大家都只考慮到自己的得失,只打自己的“小九九”,結(jié)果是誰也不付出,得過且過,也就排除了合作雙贏的前景。所以,公共品問題一定要有人協(xié)調(diào)和管理,大家的事情要有專人進(jìn)行協(xié)調(diào)管理。其實(shí),這就是政府的主要職能之一。對于一個國家來說,最重要的公共品是國防公安、基礎(chǔ)設(shè)施、科教文衛(wèi)等。政府責(zé)無旁貸地要用來自納稅人的錢,把科教文衛(wèi)、基礎(chǔ)設(shè)施和國防公安等屬于大家的事情做好。

在修路博弈中,為了解決這條通往外界公路的修建問題,需要政府牽頭,強(qiáng)制性地分別向上官、歐陽兩家各征稅2個單位,然后投入4個單位的成本修建好這條能給兩家都帶來好處的公路。有句俗語不是說嘛“要想富,先修路。”路修好了,就可以使兩戶居民的生活水平在一定程度上得到改善。通常也只有政府出面,大家才能走出誰都不愿意去修建公共設(shè)施的囚徒困境。當(dāng)然了,羊毛出在羊身上,公民稅收是必不可少的,因此大家都要自覺承擔(dān)納稅的義務(wù)。

非合作博弈:人類自私自利的本性

“選A還是選B”這個問題不僅讓富有實(shí)戰(zhàn)經(jīng)驗(yàn)的商人們苦惱不堪,也同樣折磨著商學(xué)院的天之驕子們。一位教授讓自己班上的27名學(xué)生進(jìn)行一個博弈游戲,這個博弈會把所有學(xué)生帶入囚徒困境之中。

游戲規(guī)則如下:

假設(shè)每一個學(xué)生都是一家企業(yè)的老板,現(xiàn)在他必須決定自己選擇A——代表著生產(chǎn)高質(zhì)量的商品來維持較高價格,還是選擇B——代表著生產(chǎn)假貨以通過別人所失來換取自己所得。學(xué)生選擇A可獎勵2元,選擇B可獎勵2.15元。但選擇A將產(chǎn)生總體收益:1個學(xué)生選擇A,總體收益為2元;2個學(xué)生選擇A,總體收益是4(2×2=4)元,依此類推……選擇B將無總體收益可言。同時,將選擇A的學(xué)生所產(chǎn)生的總體收益平均分給這27個學(xué)生。

這是教授事先設(shè)計(jì)好的一個博弈,以確保每個選擇B的學(xué)生總比選擇A的學(xué)生多得0.15元。這個假定也有其現(xiàn)實(shí)意義,因?yàn)樯a(chǎn)質(zhì)次的假貨所付出的成本總比生產(chǎn)高質(zhì)量的商品要低,反過來,其利潤當(dāng)然要高。

但是,選擇B的人數(shù)越多,就意味著選擇A的人數(shù)越少,則他們的總體收益就會越少,總體收益越少,平均分到每個人手中的收益就越少。這個假設(shè)也有道理,隨著市場上充斥著的假貨的增多,消費(fèi)者便會逐漸地認(rèn)清它們的面目,就會理性地不再購買它們,這就直接導(dǎo)致了假貨生產(chǎn)者(游戲中指選擇B的學(xué)生)利潤的減少。而且,市場上出現(xiàn)的假貨太多,市場秩序就會混亂,該產(chǎn)品的信譽(yù)就會降低,這也直接損害了高質(zhì)量產(chǎn)品生產(chǎn)者(游戲中指選擇A的學(xué)生)的利益。

假設(shè)27名學(xué)生都選擇A,那么他們每人各得2元,且總體收益是54(2×27=54)元,將54元平均分配給27個學(xué)生,也是每人2(54÷27=2)元,則每個學(xué)生最后的實(shí)際所得為4(2+2=4)元。

假設(shè)有1個學(xué)生有了自私自利的打算,偷偷改變主意,選擇B。那么,選擇A的學(xué)生就有26名,每人各得2元,總體收益是52元(2×26=52),將52元平均分配給全班27個學(xué)生,每人各分得1.9(52÷27≈1.9)元,則選擇A的學(xué)生最后的實(shí)際所得為3.9(2+1.9=3.9)元,比原來少得0.1元;而選擇B的那個學(xué)生最后可得4.05(2.15+1.9=4.05)元,比原來多了0.05元。

假設(shè)有2個學(xué)生改變主意,改選B,則有25名學(xué)生選擇A,每人各得2元,總體收益是50(2×25=50)元,將50元平均分配給27個學(xué)生,每人可分得1.85(50÷27≈1.85)元,則選擇A的25名學(xué)生最后每人各得3.85(2+1.85=3.85)元;而選擇B的那2個學(xué)生最后每人各得4(2.15+1.85=4)元。

假設(shè)有3個學(xué)生改選B,那么,選擇A的學(xué)生就有24名,每人各得2元,總體收益是48(2×24=48)元,將48元平均分配給全班27個學(xué)生,每人可分得1.78(48÷27≈1.78)元,則選擇A的學(xué)生每人各得3.78(2+1.78=3.78)元;而選擇B的3個學(xué)生每人各得3.93(2.15+1.78=3.93)元。

……

假設(shè)全班27個學(xué)生為了盡可能地使自己的收益達(dá)到最大,一致選擇自私的策略,統(tǒng)統(tǒng)選擇B,則總體收益是0元,最后每個學(xué)生各得2.15元。

由以上分析可以看出,當(dāng)只有1個學(xué)生選擇B的時候,該學(xué)生能獲得最大收益4.05元,其余26名學(xué)生相對會蒙受一點(diǎn)損失,只能獲得3.9元。反過來,如果他們進(jìn)行合作,協(xié)同行動,不惜將個人的收益減至最小,都選擇A,則每個人都能獲得最大收益4元。選擇B的學(xué)生人數(shù)越多,每個人的最后收益越少。

演練這個博弈的時候,起初每個學(xué)生都被相互隔離開,不允許討論,單獨(dú)做選擇。全班27名學(xué)生無疑都像囚徒困境中的嫌疑犯一樣,都是聰明絕頂?shù)睦硇匀耍瑐€個精于算計(jì),為了多獲得0.05元,不約而同地都選擇了B。

后來教授允許學(xué)生之間相互討論,以便達(dá)成共識。結(jié)果同意合作而選擇A的學(xué)生總數(shù)從3人到14人不等。在最后一次帶有約束性協(xié)議的博弈里,只有4個學(xué)生愿意選擇A。此時,全體學(xué)生的總收益是65.45[2×4+2.15×(27-4)+2×4=65.45]元,比全體學(xué)生成功合作可以得到的總收益108(2×27+2×27=108)元減少了42.55(108-65.45=42.55)元。

這個游戲也可以看作是非合作博弈的又一典型模式,并且比囚徒困境更深刻地揭示了人自私自利的本性。這一模式說明了這樣一種情況——處于相同困境狀態(tài)下,各方都不知道別人的選擇,因而只能猜測每個人都是絕對的理性人,最后必將背叛其他人,從自己的利益出發(fā),做出最有利于自己的選擇。

處于困境中的人們與困境之間是一種不可逆轉(zhuǎn)的關(guān)系,也就是說當(dāng)他們無法通過自己的力量去左右局勢,獲得集體收益最大時,就只能在困境的局勢下想辦法盡可能讓自己的損失最小,收益最大。

這個游戲在現(xiàn)實(shí)社會中也極具代表性。比如,某村有一塊公共草地可供牧人放牧,每個牧民都清楚地知道增加自己養(yǎng)羊的數(shù)目,可以增加收入。但由于是共屬大家的草地,沒有人會去關(guān)心草地的承載極限,于是羊越來越多,草越來越少。最后草地空了,草沒了,羊也沒了。這是一個帶有悲劇性的博弈過程。當(dāng)出現(xiàn)類似情況的時候,就需要有外界力量對其進(jìn)行干預(yù),制定相應(yīng)規(guī)則,從而使草地得到最合理的利用,大家才能真正得到實(shí)惠。

績效考核的上下博弈

企業(yè)老板為促使員工之間互相競爭,努力工作,有時會故意在員工之間形成囚徒困境。為了形成這種激勵員工賣力工作的囚徒困境,老板可以采取這一策略:獎勵表現(xiàn)最好的員工,并淘汰未達(dá)工作標(biāo)準(zhǔn)的員工。假如員工都接受了這場博弈,那么他們就會兢兢業(yè)業(yè)地工作了。

假設(shè)某公司開發(fā)出一種新產(chǎn)品,并招聘了20個業(yè)務(wù)員來對它進(jìn)行推銷,此時作為公司老板的你,要如何決定每個業(yè)務(wù)員的工作量呢?由于這種產(chǎn)品過去在市場上從來沒有出現(xiàn)過,所以你根本無法評估能干又勤奮的業(yè)務(wù)員每個月到底能賣多少產(chǎn)品。

解決的唯一辦法就是根據(jù)相對績效標(biāo)準(zhǔn)來評估每個業(yè)務(wù)員的表現(xiàn),也就是拿他們的工作業(yè)績進(jìn)行相互比較,給予銷售量高的業(yè)務(wù)員額外的獎勵。此時,相對績效評估標(biāo)準(zhǔn)將會使所有業(yè)務(wù)員陷入積極工作的囚徒困境之中。

以甲、乙兩個業(yè)務(wù)員之間的博弈為例,甲、乙都可以選擇每月工作20天或25天。雖然由于此項(xiàng)工作本身具有特殊性,跑外的業(yè)務(wù)員不比坐辦公室上班的員工,老板無法準(zhǔn)確判斷業(yè)務(wù)員的實(shí)際工作時間,但是他們也不是全然就沒有了管束,老板可以根據(jù)每月月底各個業(yè)務(wù)員的銷售業(yè)績,對他們這個月的工作狀況進(jìn)行逐一考核。一般情況下,每月工作25天的業(yè)務(wù)員推銷出的產(chǎn)品會比每月工作20天的業(yè)務(wù)員要多。

對公司而言,只要兩個業(yè)務(wù)員的工作時間一樣,就會得到相同的評價。在這種情況下,兩個業(yè)務(wù)員若要得到相同的評價,很可能會選擇集體偷懶。因?yàn)槊總€人都偷懶時,大家的表現(xiàn)就會不相上下,顯然會選擇每月工作20天,而不會選擇每月工作25天。當(dāng)然,兩個業(yè)務(wù)員都會失去成為業(yè)務(wù)精英的機(jī)會,但放棄這個機(jī)會而換取舒適的工作環(huán)境,也許是很值得的。

不過,老板針對此種情況而設(shè)計(jì)的囚徒困境卻迫使他們不得不延長工作時間。假如甲每月工作20天,乙工作25天,乙就會得到高等的評價,獲得獎勵;要是甲每月工作25天,但乙每月只工作20天,那么乙將會受到老板的批評,飯碗可能就保不住了。所以對甲、乙來說,每月工作25天是他們的最佳選擇。

雖然員工們都想輕松度日,在工作中偷懶,但當(dāng)公司老板以相對評估標(biāo)準(zhǔn)來衡量員工工作業(yè)績時,囚徒困境的形成就使得某一員工很難說服別人一起偷懶。退一步想,假如員工互相串通,集體偷懶,相對標(biāo)準(zhǔn)所形成的囚徒困境遭到瓦解,老板要怎么做才能激勵員工努力工作呢?此時,就必須采取客觀的績效評估標(biāo)準(zhǔn),把表現(xiàn)不佳的人毫不留情地開除。

簽訂合作協(xié)議:由婚姻想到的

嚴(yán)格的囚徒困境形成的前提條件是參與博弈的各方不可以進(jìn)行合作,不能夠制定有約束力的合作協(xié)議。但是在實(shí)際生活中,合作是社會文明的基礎(chǔ),這已得到先哲們的認(rèn)可,哲學(xué)家盧梭不就寫了《社會契約論》一書嘛,他就認(rèn)為契約是整個人類社會存在的前提條件。聯(lián)系實(shí)際生活,興修水利、組織國防、創(chuàng)建企業(yè)等不都是因合作而實(shí)現(xiàn)的嗎?

當(dāng)然,我們現(xiàn)在所說的以簽訂協(xié)議的方式來走出囚徒困境是存在一定的限定條件的,即博弈必須重復(fù)若干次,至少多于一次。對于一次性博弈而言,簽訂協(xié)議是毫無意義的。

何謂重復(fù)博弈、一次性博弈?

以戀愛博弈為例,重復(fù)博弈是指男女雙方在長期交往的過程中,隨時都在進(jìn)行著的博弈,因?yàn)橄鄲鄣倪^程中任何一個時點(diǎn)都是有可能分手的。無數(shù)愛情故事中的悲歡離合、起伏跌宕正是重復(fù)博弈的表現(xiàn)。而那種素不相識的男女,偶爾在酒吧中相遇,于是賓館訂房、玩樂一場,拂曉之后就分道揚(yáng)鑣的一夜情,就是典型的一次性博弈。

實(shí)際上,在重復(fù)型的囚徒困境中,簽訂合作協(xié)議并不是很困難,困難的是合作協(xié)議達(dá)成之后,是否對博弈各方具有很強(qiáng)的約束力,能夠使得博弈參與者都不會有私自改變主意的行為。比如由愛情而引出的婚姻,俗話說“婚姻是愛情的墳?zāi)埂保珡牟┺恼摰慕嵌葋砜矗橐銮∏∈悄信p方簽訂的一種具有一定約束力的協(xié)議,一旦某一方背叛婚姻,他就會受到家庭的壓力與社會輿論的譴責(zé)。

現(xiàn)在,博弈論專家已經(jīng)用數(shù)學(xué)知識證明,在無窮次重復(fù)博弈的情況下,合作是一種相對穩(wěn)固的狀態(tài)。因?yàn)槿魏我淮伪撑讯紩?dǎo)致對方在下一輪博弈中進(jìn)行報(bào)復(fù),而雙方都采取合作態(tài)度則會帶來合作收益,兩方都相安無事地處下去。

如何與對手達(dá)成合作?

在囚徒困境中,我們已經(jīng)知道了這樣一個道理:從個體的眼光看,決策目標(biāo)是在與對手的一系列對局中盡可能地使自己的利益最大化。這使得博弈參與者會受到背叛總體利益的短期誘惑,總是想贏對方,結(jié)果可能得不償失。因?yàn)閷Ψ揭矔Ψ磽簦兄码p方都難以全身而退,造成兩敗俱傷的局面。在這種情況下,即使雙方都沒有繼續(xù)對抗下去的意愿,但開弓沒有回頭箭,他們也只能咬緊牙關(guān),硬著頭皮撐下去。但是與對方建立合作卻可以使雙方都得到更多的長期利益。

在陷入囚徒困境時應(yīng)如何表現(xiàn),才能盡可能地與對手達(dá)成合作呢?以下是對參與者的兩個簡單的建議:

◇不要嫉妒

在大多數(shù)博弈中,人們都習(xí)慣于考慮零和對局:一方贏,就預(yù)示著另一方必輸。然而生活中的大多數(shù)對局都是非零和的,不是此消彼長的關(guān)系,而是雙方都可以做得比較好或是比較差。雙方達(dá)成合作是極有可能的,只是并不一定都能實(shí)現(xiàn)而已。

人們在很多情況下都傾向于采用相對標(biāo)準(zhǔn),把對方的成功與自己的成功對立起來,認(rèn)為對方成功了自己就一定失敗。這種標(biāo)準(zhǔn)的直接后果就是會引發(fā)人的嫉妒,導(dǎo)致參與者企圖用自己選擇的策略抵消對方已經(jīng)占有的優(yōu)勢。

在囚徒困境的模式下,抵消對方優(yōu)勢的唯一途徑就是背叛。如此便會進(jìn)入一個惡性循環(huán)的怪圈,一次背叛會導(dǎo)致更多的背叛和雙方都受到懲罰的結(jié)局。可以說,嫉妒的出發(fā)點(diǎn)是自我保護(hù),但其結(jié)果卻是自我毀滅。

在任何一局非零和的博弈中,你沒有必要非得比對方做得好。要求自己比對方做得好不是一個很好的目標(biāo),除非你想消滅對方。因?yàn)檫@個目標(biāo)在大多數(shù)情況下是不可能或者說是很難實(shí)現(xiàn)的。尤其是當(dāng)你要和許多不同的對手打交道時,就更不要去嫉妒對方的成功。因?yàn)樵谥貜?fù)型囚徒困境中,其他人的成功是你成功的前提。

舉一個大家都比較熟悉的例子。一家商店從供應(yīng)商那兒購買商品,嫉妒供應(yīng)商的利潤是完全沒有必要的。任何由嫉妒而引起的企圖通過不按時付賬等不合作行為來減少供應(yīng)商利潤的做法,都是對自己不利的魯莽舉動,都將激起供應(yīng)商諸如拖延發(fā)貨、不愿意打折扣或者不提供市場變化信息等的報(bào)復(fù)行為。商店就會為自己的嫉妒心理付出極大的代價。

◇不要首先背叛,耍小聰明

博弈論專家通過辯證法分析指出:只要對方有意合作,你也積極配合,促成合作,就會有好處。對方是否有合作意愿的最好的表現(xiàn)就是對方的出發(fā)點(diǎn)是否善良,是否不首先背叛。

當(dāng)博弈一方從一些不善良的出發(fā)點(diǎn)行事時,他往往會使用相當(dāng)復(fù)雜的方法來試探自己的這個出發(fā)點(diǎn)能否逃脫對方的懲罰。比如嘗試在第一步背叛,如果第一步的結(jié)果顯示對方進(jìn)行報(bào)復(fù)的話,就馬上撤回。或者是在背叛前等待十幾步,看對方能否被哄騙或偶爾被占便宜。如果能的話,那就更頻繁地、肆無忌憚地增加背叛的砝碼,直到受到對方的反擊再被迫撤回。

但需要指出的一點(diǎn)是,這些嘗試背叛的策略表現(xiàn)得都不怎么好。因?yàn)楸撑巡呗缘膶?shí)施者沒有考慮自己的行為可能引起的對方的變化,事實(shí)上對方對你所采取的策略是有反應(yīng)的,他將會把你的行為看作是你是否會同意合作的信號。你自己的行為會映射到你自己身上,自食其果,由此而導(dǎo)致的沖突的代價是很高的。

當(dāng)然,你也可以嘗試一種比較保險的方式,即先背叛對方直到對方提出合作,才開始合作。然而,這是一個理論上較保險,而實(shí)際上很有風(fēng)險的策略,因?yàn)槟阕畛醯谋撑芽赡芤饘Ψ降膱?bào)復(fù),使你處于要么被占便宜,要么彼此背叛、兩敗俱傷的兩難境地。如你發(fā)現(xiàn)被對方報(bào)復(fù)了,再懲罰對方的報(bào)復(fù),而對方再對你的懲罰進(jìn)行報(bào)復(fù)……這種循環(huán)就會一直延續(xù)下去,后果可想而知。

有的參與者會耍一些小聰明,比如采取相當(dāng)復(fù)雜的策略,以至于打亂對方的常規(guī)思維,讓對方摸不準(zhǔn)自己的思路而陷入不知所措的困境。當(dāng)然,對方也會采取一個隨機(jī)的策略,如果你給對方的感覺是無反應(yīng)的,對方當(dāng)然就猜不透你是如何想的,自然也感受不到來自你的促成合作的激勵,也就不會去積極地促成合作。策略復(fù)雜到不可理解時是非常危險的。

“一報(bào)還一報(bào)”策略

現(xiàn)在,人們對博弈論的研究非常廣泛,以至于有人形象地說:“最新的經(jīng)濟(jì)學(xué)和管理學(xué)都已經(jīng)用博弈論的理論和工具重新寫過了。”雖說有些夸張,但也絕非毫無根據(jù),博弈論在現(xiàn)代生活中確實(shí)占了很大比重。博弈參與者有很多有趣且富于哲理的選擇策略,適用于重復(fù)博弈的“一報(bào)還一報(bào)”就是其中之一。

“一報(bào)還一報(bào)”策略大致是這樣的:它總是以合作開局,在第一步合作,但從此以后就采取“以其人之道,還治其人之身”的策略,采用對方上一步的選擇。也就是說,“一報(bào)還一報(bào)”意味著在對方每背叛一次之后,自己就背叛一次,而永遠(yuǎn)不先背叛對方。

“一報(bào)還一報(bào)”是一種綜合了善意性、寬容性、報(bào)復(fù)性、適應(yīng)性和清晰性的合作策略,無論對于個人還是組織,其行為方式都有很大的指導(dǎo)意義。總的來說,它比競賽中的其他策略都好。

◇“一報(bào)還一報(bào)”的善意性

“一報(bào)還一報(bào)”策略放棄了占他人便宜的可能性,永遠(yuǎn)不先背叛對方,永遠(yuǎn)不先把自己的利益建立在他人的損失之上。從這一特點(diǎn)來看,它是善意的。因?yàn)椴捎靡哉急阋藶槌霭l(fā)點(diǎn)的策略引發(fā)的問題是多種多樣的。

首先,如果一個參與者用背叛來試探是否可以占他人的便宜,那么他就得冒被那些可能被激怒的規(guī)則遵守者報(bào)復(fù)的風(fēng)險;其次,雙方的報(bào)復(fù)一旦開始,就會陷入惡性循環(huán)之中,雙方都很難全身而退。而“一報(bào)還一報(bào)”的這種善意性可防止博弈參與者陷入不必要的麻煩之中。

“一報(bào)還一報(bào)”的善意性使得其實(shí)施者從來不會在游戲中比對方少得太多好處。事實(shí)上,他也不可能比對方多得好處。因?yàn)檫@個策略總是讓對方先背叛,這就注定了策略實(shí)施者的被背叛次數(shù)肯定比對方少或者和對方一樣。所以“一報(bào)還一報(bào)”不是讓實(shí)施者得到與對方一樣多的好處,就是比對方略少。

“一報(bào)還一報(bào)”之所以會獲得比其他任何策略更多的總體利益,就是因?yàn)樗皇强看驌魧Ψ饺伲且龑?dǎo)對方做出對雙方都有好處的行為。

◇“一報(bào)還一報(bào)”的寬容性

“一報(bào)還一報(bào)”策略還給出了一個簡單但又很有力量的建議:無論對方的選擇是合作還是背叛,策略實(shí)施者都要給予回報(bào)。在下一輪博弈中對對手的前一次合作給予簡單的回報(bào),哪怕以前這個對手曾經(jīng)背叛過自己。并且“一報(bào)還一報(bào)”總是在對方每次背叛之后只報(bào)復(fù)一次,這點(diǎn)足以說明其具有寬容性。它的這種寬容性有助于重新恢復(fù)合作。

◇“一報(bào)還一報(bào)”的報(bào)復(fù)性

“一報(bào)還一報(bào)”策略的運(yùn)用者會采取背叛的行動來懲罰對手前一次的背叛,從這個意義上來說它又是具有報(bào)復(fù)性的。“一報(bào)還一報(bào)”從不先背叛對方,但是不管過去的關(guān)系如何好,它總能被對方的一次背叛激怒,而迅速做出反應(yīng),給予相同程度的報(bào)復(fù)行為。它的這種報(bào)復(fù)性使對方試著背叛一次之后就不敢再背叛,增大了轉(zhuǎn)回合作的概率。

◇“一報(bào)還一報(bào)”的適應(yīng)性

“一報(bào)還一報(bào)”能在眾多的策略中獨(dú)占鰲頭,比其他任何策略表現(xiàn)得都好,足以說明它是一個很具適應(yīng)性的策略。它不僅可與最初的各種策略相處得很好,而且能與那些未來可能在群體中占較大份額的成功策略相處得很好。它只會在與其他成功的策略相互交流時繁榮起來,而決不會毀壞自己已經(jīng)得到的進(jìn)一步改善狀況的基礎(chǔ)。任何想占“一報(bào)還一報(bào)”便宜的策略最終將傷害自己,屈服于“一報(bào)還一報(bào)”。

◇“一報(bào)還一報(bào)”的清晰性

“一報(bào)還一報(bào)”在競賽中能夠取得成功的另一個重要原因是它具有很強(qiáng)的清晰性,極易被對方理解,從而引出長期合作。策略實(shí)施者讓對方清楚地意識到自己愿意合作是“一報(bào)還一報(bào)”成功的訣竅所在。當(dāng)你選用“一報(bào)還一報(bào)”策略時,對方很容易理解你在干什么,接下來要干什么,是打算合作還是想要背叛,接著會根據(jù)你的反應(yīng)而做出相應(yīng)的回應(yīng)。

在博弈過程中,你的任何一次背叛都容易被對方感受到,進(jìn)而迫使對方采取一對一的報(bào)復(fù)。而你所做的任何一次促進(jìn)合作的努力,對方也會在第一時間感受到。此時,對方能輕易地分析出應(yīng)付你“一報(bào)還一報(bào)”的最好方式就是與你合作,互利互惠。當(dāng)你遇到對方使用“一報(bào)還一報(bào)”策略時,也只有馬上和他合作才是你最佳的選擇,這樣你將可以在下一步博弈中得到合作。

“一報(bào)還一報(bào)”策略的偉大勝利,對人類和其他生物的合作行為的形成具有深遠(yuǎn)意義。阿克塞爾羅德在《合作的進(jìn)化》一書中指出:“‘一報(bào)還一報(bào)’策略能引發(fā)社會各個領(lǐng)域的合作,包括在最無指望的環(huán)境中的合作。”

舉個最明顯的例子,就是在第一次世界大戰(zhàn)中“自己活,也讓他人活”原則的產(chǎn)生。當(dāng)時在前線的戰(zhàn)壕里,軍隊(duì)紀(jì)律規(guī)定自己的士兵不準(zhǔn)亂開槍殺人,希望促使對方也這么做。結(jié)果證明,這個原則得到了很好的實(shí)行,給了當(dāng)時陷入困境數(shù)月的雙方軍隊(duì)相互了解、相互適應(yīng)的機(jī)會。

即使是“一報(bào)還一報(bào)”這種有效的破解囚徒困境的策略,也不是萬能的,也難免會產(chǎn)生兩敗俱傷的危險。

首先,當(dāng)“一報(bào)還一報(bào)”策略重復(fù)使用的時候,就會使博弈雙方陷入循環(huán)報(bào)復(fù)的局面,致使任何一方都難以脫身;其次,由于“一報(bào)還一報(bào)”的核心是對對方的任何行為都要給予及時有效的回報(bào),就是說當(dāng)遭遇他人侵犯時也一定會“以牙還牙”,毫不妥協(xié)。

但須強(qiáng)調(diào)的一點(diǎn)是,這種策略的前提是“人不犯我,我不犯人”,這樣可大大降低博弈參與者相互傷害的概率。總的來說,“一報(bào)還一報(bào)”策略還是利大于弊,目前應(yīng)該算是破解囚徒困境的理想策略。

主站蜘蛛池模板: 大连市| 台东县| 海宁市| 长春市| 扶绥县| 枣强县| 固镇县| 遂溪县| 子洲县| 临漳县| 汽车| 镇江市| 法库县| 门头沟区| 辉县市| 孟津县| 栾川县| 界首市| 南昌市| 汤原县| 富平县| 湄潭县| 大渡口区| 康乐县| 宣汉县| 昌平区| 化州市| 阿拉善左旗| 突泉县| 丹寨县| 泉州市| 江津市| 历史| 射洪县| 将乐县| 隆德县| 织金县| 邢台市| 贵溪市| 怀仁县| 基隆市|