第7章 重復博弈:背叛者總是“輸家”(1)
- 20幾歲學點博弈論(每天學一點時尚閱讀書系列)
- 墨墨
- 4426字
- 2016-01-05 16:47:58
人們都明白“一報還一報”的道理,所以在重復博弈中,同樣是出于利己的心理,人們通常會選擇最優的策略,而這顯然也是對雙方都有利的策略。許多耳熟能詳的俗語其實也是一種潛在的游戲規則,比如“以牙還牙”“人不犯我,我不犯人”等,都揭示了人們行事的準則。
“魚死網破”的婚姻或者分道揚鑣的一夜情,都屬于一次性或有次數的博弈行為,其中“背叛”的情況是常見的,因為當人們一旦知道博弈即將結束或者是最后一次博弈的時候,他就可能不再害怕以后對方對他的報復,從而會在博弈時做出背叛的選擇,就像商家的一次買賣和一夜情一樣,總有因背叛而獲利的一方,而重復博弈則不會出現這種情況。
人人都明白“一報還一報”的道理
艾克斯羅德在進行合作研究之前,設立了兩個前提:其一,每位合作者都是自私的;其二,沒有什么可以干預個人決定,也就是說,參與者能完全按照自己利益最大化的想法進行決策。
于是在這兩個前提下,合作會研究3個問題:
(1)我為什么要合作?
(2)在什么樣的情況下該合作,在什么樣的情況不該合作?
(3)怎樣讓別人與自己合作?
實際生活中,各個領域都會涉及合作的問題,其實合作也是一種博弈,至于最后合作雙方的利益如何分配,就要看其是屬于單次博弈或者有限次博弈還是重復博弈,這決定著合作的結果。拿兩個國家之間的關稅報復來說,對別的國家商品提高關稅有利于保護本國的經濟,可是國家之間互提關稅會造成產品價格的升高,于是競爭力就喪失了,這就損害了國際貿易之間互補的優勢,也可以說兩國都陷入了“囚徒困境”中,但是,這種困境在現實社會中雖時有發生,卻不會長久。可以從下面的解釋中找到答案。
甲和乙各表示一個人,選擇A代表合作,選擇B代表不合作。如果甲乙雙方都選擇A,則兩人各得3分;假如一方選A,一方選B,則選A者得0分,選B者得5分;假如甲乙都選B,雙方各得1分。
在這種情況下,因為“囚徒困境”在起作用,雙方都會選擇B。但是如果雙方都知道這種博弈要進行很多次,而且次數不明,兩個人都會意識到在持續地采取合作態度時,雙方都將持續各得3分,假如雙方一直不肯合作,每個人每次都只能得1分。因此,雙方就產生了合作的動機,因為雙方都知道只要自己一次不合作,下一次對方也不愿意與自己合作了,或者在下次合作中將背叛或報復自己,而這將使得自己的利益減少,所以合作當然是上策。
艾克斯羅德曾邀請多人來參加一個實驗,其得分規則和上面“囚徒困境”中提到的矩陣一樣,而且人們都不知道游戲什么時候結束。艾克斯羅德要求每位參與的人把追求得分最多的方法編入計算機程序,之后用單循環賽的方法使參賽程序兩兩博弈,以得出哪種策略得分最多。
游戲第一輪有14個程序參與,再加上艾克斯羅德的一個隨機程序,即以1/2的概率選取合作或者不合作,在程序運轉了300次后,得分最高的程序是加拿大學者羅伯布寫的“一報還一報”。這個程序的特點是:在第一次對弈時采取合作的策略;其后的每一步都跟隨對方前一步的策略,也就是說你上次沒合作,這次我也不會合作;你上次合作了,那么這次我也將選擇合作。
艾克斯羅德在得分排在前面的程序中還發現了幾個特點:人們不愿意首先表示背叛;如果被對方背叛了,下次一定會報復,不能總和他們合作;不能對方背叛一次,你就沒完沒了地背叛,如果對方改為合作,自己也會寬容地與之合作。
為了進一步驗證這個結果,艾克斯羅德又邀請更多人做這個游戲,并把上一次的游戲結果告訴大家。第二次他征集到了62個程序,然后加上他的隨機程序,又進行了一次演示,其結果仍然和上次相同。
顯然,人們都明白“一報還一報”的道理,所以在重復博弈中,同樣是出于利己的心理,人們通常會選擇最優的策略,而這顯然也是對雙方都有利的策略。
現實生活中也有很多重復博弈的例子。
成都的一家報攤就體現了重復博弈所產生的最優策略。
如果報攤也像無人售票車一樣實行自動投幣的方法,會不會有人拿走報紙不給錢?
在成都的一個報架上,寫著“請給5角買報”的字樣,在報紙旁邊擺著一個放錢的口袋,而且這個無人售報攤居然創造了3年從沒少過錢的誠信奇跡。
誠然,那些買報者都是理性的人,但并不是無欲無求的天使,也有利己心理,而且難保在生活的其他方面做些不夠誠信的事。可是這個無人賣報攤3年沒少過錢的事情,也值得人們從中悟出一些道理。
其實,這種誠信并不是一兩天就能形成的,在無人售報攤開業的第一天,里面的錢比實際賣出去的報紙應得的收入少2元錢,也就是說有4份報紙沒有付錢就被拿走了,也許拿走這4份報的人中就有不誠信的機會主義者。
交易的雙方在第一天內就進行了一次關于誠信問題的簡單博弈,在這次博弈里,講誠信的賣報人利益上受到了一些損失,在這種情況下,他完全有可能不顧其他買報人方便與否,在第二天取消無人賣報攤,這樣一來,交易的雙方其實都陷入了誠信的“囚徒困境”中,這對雙方來說都比較費事,也就是對交易雙方都不利。
但賣報者并沒有取消而是堅持下來,結果在第二天,錢袋里就多出2元錢。
當然,也不能排除有人沒有零錢的可能,但畢竟對買報人和賣報人來說,都是沒有損失的。后來,這個無人售報攤居然堅持了3年都沒少過一分錢。
從博弈的角度看,頭一次那種“每位參與博弈的人都只關心個人利益和一次性支付的簡單博弈”已經慢慢變成“連續、重復進行的博弈”,在連續重復博弈的過程里,拿報紙卻不付錢的人一定會擔心賣報人或者其他人對其采取暗中觀察、抓住自己示眾等報復行為,所以,拿報紙的人也會理性地克服自己的投機心理,選擇和賣報者誠信合作,于是,就出現了雙方都講誠信的博弈局面。
無人售報攤3年不少一分錢是完全符合博弈原理的,它沒有一點不妥的地方,也不和其他博弈理論相矛盾,依然是理性的人,但是把單次博弈替換成重復博弈,其效果就會完全不同。
合作約束——重復博弈會產生好結果
假如僅是單次的博弈行為,雙方合作的幾率非常小,而無限次的博弈則可能產生與之相反的效果,博弈的雙方很可能會全力合作,以創造最佳的收益。
很多商業行為都可以詮釋這種現象。比如商家準備做一次性買賣時,覺得不可能和對方再有合作的機會,就會盡力謀取高利而且很可能帶有一些欺騙性質,而商家對于“回頭客”的態度往往是通過薄利行為使得雙方的合作關系能夠繼續下去。
多次重復的博弈之所以和單次發生的博弈結果不同,是因為在重復的博弈中,每個人都有機會去報復對方的背叛行為,因為人們欺騙的動機可能會受到懲罰和威脅,所以參與者很可能出現“利他”心理,從而導致一個比較好的合作結果,“納什均衡”也就慢慢趨向于“帕累托最優”。
第一次博弈其實和一次性“囚徒困境”的博弈差不多,就拿前一章的“囚徒困境”來說,博弈的雙方都明白這是唯一的一次博弈,所以雙方都明白即使自己不招供,對方也難免招供,這對自己是沒有好處的,于是,作為一個理性的人,雙方都會坦白。甚至可以說只要是有限次數的重復博弈,他們的思路就都是相同的,商業中的價格往往是這樣,眾多商家很難形成統一戰線,他們每次價格博弈的納什均衡就是全體降價。
可是在人們生活中進行的也有很多是重復博弈,即有的博弈是沒有次數限定的。
通過“囚徒困境”的基本博弈結構,可以很明白地分析“囚徒困境”:
有兩位參與者和一個莊家,參與者都拿著一式兩張的卡片,卡片背面印著“背叛”“合作”。參與者都把一張卡片面朝下拿到莊家面前。這樣兩位參與者是不可能知道對方選擇的。之后,莊家翻開參與者的卡片,根據下面的規則判定得失:
一人合作,一人背叛:合作者不計分(受騙支付),背叛者得5分(背叛誘惑)。
兩個人都選擇合作:兩個人都得3分(合作報酬)。
兩個人都背叛:兩個人都得1分(背叛懲罰)。
一般形式的囚徒困境支付矩陣為:
合作背叛合作3,30,5背叛5,01,1以“勝-負”術語表示為:
背叛:大負負-負=大勝
合作:勝大負-大勝=勝
現在我們用“T、R、P、S”的符號來表示合作和背叛:
背叛:T,SP,P
合作:R,RS,T
簡單博弈獲得的分數可以得出下面的結論:
T:單獨背叛可以成功獲得5分。
R:同時合作可以獲得3分。
P:共同背叛可以獲得1分。
S:被單獨背叛不得分。
以個人選擇得分而言,可得出以下公式:T>;R>;P>;S,也就是5>;3>;1>;0;但是以整體得分來說,會得出下面的不等式:2R>;2P或2R>;T+S,也就是2×3>;2×1或2×3>;5+0,雙方合作會得6分,比起互相背叛所得的2分和單獨背叛得到的5分,合作的結果顯然比背叛要高。而重復博弈的人因為雙方會不停合作,所以這將會讓參與者從關注T>;R>;P>;S到關注2R>;T+S,這將讓參與者脫離困境。這個理論是道格拉斯·霍夫施塔特提出的。
嚴格的“囚徒困境”有一個前提條件,即博弈雙方不能進行合作,所以他們不會制訂出有約束力的協議,其“納什均衡”點并不會改變。可在現實生活中,在很多情況下,人們是愿意進行合作的,比如組織國防、興修水利、創建企業,這些都是由合作產生的,哲學家盧梭曾寫了一本叫做《社會契約論》的書,他認為契約是整個社會存在的前提之一。
其實,戀愛關系或者婚姻也是一種合作,也可以說它們是一種重復性質的博弈。男女雙方在交往的時候,隨時都在進行博弈,因為在交往中,他們隨時都可能因為某件事即“背叛”事件分手,因為背叛者獲得的利益是比較大的。可是從博弈論的角度看,婚姻就好像是男女雙方簽訂的一種協議,它對男女雙方都有一定的約束力,一旦一方背叛了婚姻,就會面臨社會輿論的譴責和家庭的壓力,還有財產的糾紛,這對“背叛”者來說往往是不劃算的,從很多富豪、大亨都保留“元配”的位置可以看出這點。
其中也不乏“魚死網破”的婚姻或分道揚鑣的一夜情,這些都屬于一次性或有次數的博弈行為,其中“背叛”的情況是常見的,因為當人們一旦知道博弈將要結束,或者將要實行的是最后一次博弈的時候,他就可能不再害怕以后對方對他的報復,從而會在博弈時做出背叛的選擇,就像商家的一次買賣和一夜情一樣,總有因背叛而獲利的一方。這種情況就另當別論了。
重復博弈和一般的動態博弈是不一樣的。在多輪動態博弈里,參與的人可以了解到博弈的每一步,也可以推測出另外一些參與者會在這種情況下做出什么選擇,采取什么行動,而重復博弈的雙方則無法了解到博弈中的每個步驟和另一方的策略選擇,因為生活的變化是不可預知的。即使是“囚徒困境”,一旦它的性質轉變為重復博弈,其情況也會發生很大的變化,博弈的結局也就是“納什均衡”點可能會產生顛覆性的改變。
國外的黑手黨組織非常嚴謹,對于背叛者的懲罰也是極其殘忍的。如果一個黑手黨成員告發其他黑手黨成員,就會被組織謀殺甚至誅殺全家。一旦他們不幸入獄,也很難招出同黨,因為他們寧愿被判無期徒刑,也不愿在出獄后被同伙殺掉,甚至讓全家人受連累。
由此可見,在重復的博弈中,簽訂合作協議對雙方具有很強的約束力,這個合作契約的建立一定要牽制對方利益,假如不是這樣,即使在合作協議簽訂之后,博弈雙方都有可能產生“作弊”動機。