官术网_书友最值得收藏!

  • 超級合作者
  • (美)馬丁·諾瓦克 羅杰·海菲爾德
  • 8字
  • 2018-11-08 20:06:17

01 合作的5大機制

第1章 合作機制1直接互惠

“我給你撓撓背,你也會給我撓撓背。”這就是對直接互惠的最好解讀。當兩個個體再次碰面的概率高于無私行為的成本收益比時,直接互惠就能引領合作的進化。直接互惠需要一定程度的“認出”、“回憶”等認知能力。

會有人流血的;他們說,血債血償。

莎士比亞,《麥克白》

漆黑一片之中,有生物在飛動。它們避開月光,竭盡嗅覺感官去追蹤它們的獵物,然后落在附近的某處,伺機潛近。四腳大步快跑一段之后,它們緊緊趴在了獵物身上。利用鼻子上的熱感應器,它們能感知到獵物身體哪里的血管距離皮膚比較近。晚餐常常是從脖子上狠咬一口開始的。在那里,它們能待上整整一個小時,利用帶有溝槽的長舌頭,像吸管一樣吸吮著新鮮而溫暖的血液。一連幾個晚上,它們都要回到同一處傷口繼續用餐。人們認為,它們能識別出獵物的呼吸聲,就像我們利用語音來識別彼此一樣。

在我看來,吸血蝙蝠最與眾不同的一點,就在于它們回到群棲巢穴之后所發生的事情。在巢穴中,幾百甚至上千只蝙蝠聚集在一起,倒掛在巖壁之上。如果巢穴中的某一位成員在一夜的狩獵后無果而歸,那么它的同伴就會反芻一些血液來與它分享。關于蝙蝠之間互贈血液的研究,最初是由馬里蘭大學的杰拉爾德·威爾金森(Gerald Wilkinson)在20世紀80年代早期進行的。威爾金森在哥斯達黎加野外的考察工作中發現,無論哪個夜晚,總會有百分之幾的成年蝙蝠和三分之一的幼年蝙蝠找不到食物。但它們卻從來不會挨餓,因為那些吃得肚滿腸肥的蝙蝠會吐出一點兒寶貴的血液,喂養這些同伴。研究中有一個有趣的發現:蝙蝠更愿意與之前喂養過自己的蝙蝠分享血液——蝙蝠之間會花時間為彼此梳理打扮,尤其在胃部的毛發處花很多工夫,以使得對方能識別出自己。

這就是我所說的直接互惠的一個例子。直接互惠,就是簡單的平等交換原則。我給你撓了背,也指望著你能為了回報我而給我撓撓背。同樣的道理也適用于蝙蝠之間的血液大餐。這樣的互惠行為在許多俗語中都有所體現,譬如“以牙還牙”,以及“善有善報”。羅馬人常說的“quid pro quo”,就是指“用某物換某物”。從吸血蝙蝠的例子中我們可以看出,這類合作行為的產生遠早于羅穆盧斯和雷穆斯雙生子,羅馬神話中羅馬市的奠基人。——編者注,也遠早于現代人類的誕生。

為了讓直接互惠發揮作用,雙方需要不斷重復接觸,這樣才能有機會用一方的好意回報另一方的好意。他們可能生活在同一條街道或同一個村莊,也許是一起工作的同事,或者每個周日會在教堂碰面。在吸血蝙蝠的例子中,它們都棲息在同一個山洞里。通過這樣的方式,它們就能在相互幫助的基礎上形成“接觸”。

在直接互惠研究領域,蝙蝠是經常被人引用的一個自然界中的案例,另外一個例子就是珊瑚礁。各種魚類會把出現珊瑚礁的地方當作“清潔站”,讓小魚小蝦在這里為自己清除寄生蟲:大魚們甩掉了一身討厭的寄生蟲,而小魚小蝦則享用了一頓免費大餐。當瀨魚為大石斑魚提供服務時,這位小清潔工有時會游到大魚的腮腔或口腔之中,信心十足,相信自己絕對不會被大魚一口吃掉。當石斑魚想要離開的時候,會稍微合攏一下嘴,并抖動身體,以此來提醒嘴里的清潔工朋友。甚至在自身陷入被攻擊的險境時,石斑魚還是會如此照做。其實這時候更加安全的做法,是迅速吞下小清潔工,然后一走了之。第一種策略是合作,第二種策略是背叛。

扁虱是一種頗為可惡的寄生蟲,它的存在引發了這種機制的另一個例子——互惠梳理的出現。非洲一種名叫黑斑羚的羚羊會幫助同類整理毛發,去除扁虱。而當談到與我們有最近血緣關系的物種時,書本中也滿是這類例子。克雷格·帕克(Craig Packer)克雷格·帕克現在在明尼蘇達大學工作。于1977年在坦桑尼亞的貢比鳥獸研究中心做了針對東非狒狒的長期研究報告。東非狒狒有著橄欖色的毛發,因此亦稱為橄欖狒狒。報告稱,雄狒狒會向其他雄性伸出援手,來共同對付另一只年長狒狒,這樣,其中一只狒狒就可以與年長狒狒收服的雌狒狒發生關系。雖然提供幫助的雄狒狒無法在結盟后立刻得到雌狒狒,但它仍會合作,期望受助的狒狒能對它的幫助予以回報。而現實中,它確實也能得到回報。

斯里蘭卡獼猴會照料受傷的雄性同伴,以便在今后的沖突中得到這位同伴的幫助。那么,年少的雄猴會對壯年雄猴的傷勢特別地悉心關照也就不足為奇了,因為壯年雄猴在爭斗中往往更占優勢。印度尼西亞中加里曼丹省的一項研究顯示,雄猴更容易與它之前曾為其梳理過毛發的雌猴交配——理毛似乎就是交配的“報酬”。這一有趣的發現令人們對“最古老的職業”——賣淫產生了新的理解。這一職業的存在歷史似乎比人類本身還要久遠。

雄性黑猩猩會為了達成同盟關系而與其他猩猩分享肉類食物。有證據顯示,它們會根據同伴之前向自己提供幫助的情況來決定自身的合作程度。互惠可以通過各種方式實現,如梳理毛發、幫忙打架、照看幼崽、發出警報、教育、交配以及分享食物。亞特蘭大埃默里大學(Emory University)的弗朗斯·德瓦爾(Frans de Waal)觀察到,地位很高的雄性黑猩猩索科如果當天早些時候為他的同伴梅兒梳理過毛發,那么它和梅兒溫存的機會就更大一些。

當然,也不排除例外情況,原因有二。第一,不同的科學家對互惠等詞匯有著不同的理解和運用。第二,當涉及在野外觀察動物行為時,通常需要作出漫長而細致的研究工作,才能真正搞清楚事實真相。劍橋大學生態學和進化生物學教授蒂姆·克拉頓—布洛克(Tim Clutton-Brock)認為,許多案例都可以用另一種方式進行解釋,因此很難篩選出具體的互惠實例。

我們再來看一下克雷格·帕克富有啟迪意義的東非狒狒研究。一開始,帕克認為雄狒狒是為了爭取交配機會而互相幫忙。他最初的理論是,狒狒聯盟中各成員之間會進行角色輪換以保證每一位都可以從聯盟中獲利。但之后的研究顯示,在爭取“戰利品”的時候,原本互相合作的兩只雄狒狒會展開競爭。的確,獲得交配機會的唯一辦法,就是加入聯盟、形成合作。而一旦現有的合作關系走到終點,每只雄狒狒就要憑借自己的力量贏得雌狒狒的歡心。帕克這樣說道:“在這種情況下,合作就像是買彩票,如果你不買,就不可能中獎。因為二對一還是有著非常大的成功率的。和中獎的價值比起來,買彩票的成本非常之低。只要參與次數足夠多,那么你就一定能得到中獎機會。同樣的道理也適用于你的同伴。”

互惠無處不在

奧利弗:我記得你!

雜貨鋪老板:我也記得你。現在給我滾出去,不準進來!

奧利弗:哦,不要這樣。過去的事就讓它過去吧。我們可以互相幫助。你有個買賣,我們也有個買賣。我們會派人到你的店里來,然后你也派人到我的店里去。你覺得如何?

雜貨鋪老板:你走你的陽關道,我走我的獨木橋。在我把你踢出去之前,趕快滾蛋!

勞雷爾和哈代在電影《以牙還牙》(Tit for Tat)中的對白

確定直接互惠案例真實性的方法之一,就是去思考令這一機制起效的必備特征。由直接互惠引起的合作進化,需要參與者有能力識別出眼前的同伴,并回憶起之前與之打交道的結果。它(他)們至少需要一點記憶力,去記住另一個生命體對它(他)們做過的事情,也需要一點智力,去想清楚是否要采取互惠行為。換句話說,直接互惠需要一定程度的高級認知能力。

我很確信,某些鳥類以及我們人類的許多近親,都具有足夠的認知能力,尤其是類人猿。我也十分確信,人類大腦也具備了充分的認知能力。如果哈利幫過弗雷德一個忙,那么弗雷德就能記住哈利的長相,還能記住哈利做過的好事,以及哈利過去的行為舉止究竟是怎么樣的。弗雷德具有充分的認知能力,可以從回憶過程中想清楚,哈利是否值得信任,并據此指導自身的行動。

當我們去觀察日常生活中林林總總的事物時,就會發現,直接互惠的現象比比皆是。家庭里的各項瑣事,就是在不經意間憑借物品和服務的交換來完成的。負責下廚做飯的那個人基本上可以免于洗碗的差事,反之亦然。學生宿舍中各位成員之間的和諧共處,取決于每個人在打掃衛生、飲食起居等事務上付出的勞動是否同等。如果有朋友在我們搬家的時候幫了忙,那么我們就有責任在他搬家的時候幫助他收拾行李或整理物品。家人之間也會抱有同樣的期望,認為孩子應該在家長年邁的時候前來照顧,以此回報孩童時期從父母那里得到的關懷。

當我們收到一份邀請,無論是吃晚餐還是看演出時,隨之而來的都還有一份不成文的責任,要求我們以某種方式對這些款待予以回報。如果工作中的一位同事送給你一份包裝精美的禮物,你就會記得在她生日之時也回贈一份你的心意。如果有人幫你扶著門把手,或指著自助餐桌上豐盛的美食說“您先請”,很多人會立刻回答“不,您先請”。正是這種彼此之間互惠的責任感,讓圣誕節的禮物互贈儀式越來越隆重。互惠行為同樣可以在更大規模的人群中出現:商業組織之間可以建立長期的合同責任關系,政府之間會互訂條約,等等。

與之相反,我們有時也會對卑劣的行為進行報復。常言道,“以眼還眼,以牙還牙。”這句話引自《出埃及記》(21:24—27),意思是說,在戰斗中弄瞎別人眼睛的人,要對他人的損失予以公平的賠償。古巴比倫國王創立的《漢謨拉比法典》中,用同樣的方式對互惠原則進行了規定——“如果一人打瞎了另一人的眼睛,那么他自己的眼睛就要被打瞎,如果一人打掉了另一人的牙齒,那么他自己的牙齒就要被打掉。”我們在“正義之戰”中也可以看到“以牙還牙”的邏輯,其中沖突演化的程度與給定的威脅大小成正比。

由于互惠行為在人類生活中具有十分重要的作用,因此成為眾多喜劇作品的靈感來源。著名雙人喜劇組合斯坦·勞雷爾和哈代利用互相報復的鬧劇令影片達到了歡樂的高潮。他們于1935年上映的一部喜劇短片,整體都是圍繞相互反擊和報復的主題,而且影片還有一個非常恰當的名字——《以牙還牙》。

如此看來,我們有充分的證據證明,這個世界充滿了互惠行為。但這并不是說,人生這場游戲中的另一位玩家就一定會采取互惠行為。因為為他人提供幫助是需要付出代價的,合作中總免不了會伴隨著被他人盤剝的可能。為什么要與他人分享辛苦換來的勞動成果?為什么要回報他人的幫助?為什么不采取欺詐手段?為什么不讓別人去辛苦勞作,然后自己收獲他人的成果,再一走了之?簡而言之,我們會不嫌麻煩地去幫助他人,究竟是為了什么?

畢竟,自然選擇的主要目的就是將基因傳給子孫后代,那么在采取背叛行為可以獲得豐厚短期回報的情況下,又怎么會形成一種從長遠看來頗具“利他主義”色彩的行為呢?在現代社會中,強大的法律和道德秩序能將采取欺詐行為的誘惑保持在可控的程度之內,但在沒有權威管理機構的情況下,直接互惠行為是如何發生的呢?在珊瑚礁清潔站的例子中,為什么大魚不在小魚完成清潔工作后一口把它吃掉?

關于這一問題的討論已經持續了幾十年之久。但從我所研究的學科角度來看,關于這一問題的正確研究方向是由美國進化生物學家羅伯特·特里弗斯(Robert Trivers)在論文中首次提出的。特里弗斯是位躁郁癥患者,他個性十足,由于和黑豹黨領袖休伊·牛頓(Huey Newton)的友誼而成為話題人物。現在的他正在新澤西州立大學潛心研究人類的對稱性特征,特別是牙買加人。史蒂芬·平克(Steven Pinker)尊稱特里弗斯為西方知識史的偉人。

平克之所以給他如此之高的評價,其中一個原因就在于特里弗斯1971年發表于《生物學季評》(Quarterly Review of Biology)上的一篇具有里程碑意義的論文。這篇論文的靈感來自于他在非洲對狒狒進行的研究。在《互惠利他主義的演進》(The Evolution of Reciprocal Altruism)這篇文章中,特里弗斯通過借用博弈論中的著名比喻來突出了欺詐這個謎題。他講述了囚徒困境如何直接表現出個體利益和集體利益之間的沖突。正如我在上一章中講到的一樣,囚徒困境是一個強大的數學比喻,從中可以看出,背叛行為會如何對合作產生破壞作用。

那時,特里弗斯并沒有提到“直接互惠”,但是用到了“互惠利他主義”這個詞。在這里,利他主義是指對他人安危的無私關注。雖然利他主義與進化論傳統觀點中的“自私”行為截然相反,但若揭開其背后的真實動機,就會發現利他行為其實是有許多附加條件的。通過閱讀本書,我希望讀者能逐漸明白,雖然看似矛盾,但“利他”行為很可能直接源自于理性玩家的“自私”動機。

在所有逃脫囚徒困境魔爪的機制中,最明顯的一類,就是我已經提到過的對游戲的簡單重復。這也是為什么直接互惠引發的合作在長期存在的群體中起效最為明顯。在各種類型的社會中,兩個個體可能在村莊的小酒館、工作場合或珊瑚礁處經常相遇并互動,如果某一方的背叛行為會讓同伴在下次相遇的時候也采取背叛行為,那么他(它)就會三思而后行。

特里弗斯是第一位對生物學中重復囚徒困境、或稱迭代囚徒困境的重要性予以認可的學者。由此,在動物之間發生的一系列相遇與互動中,就會產生合作行為。他引述了一些例子,諸如負責清潔的小魚,以及鳥類以警告為目的的鳴叫等。值得注意的是,特里弗斯在此基礎上還更進了一步。他講到,從同情和信任到欺騙和虛偽,“每位人類個體都擁有利他和欺詐的傾向。”

特里弗斯認為,人類情感和體驗中的很大一部分,譬如感激、同情、內疚、信任、友誼以及道德敗壞,都源于同樣簡單的互惠邏輯,與大魚和小魚清潔工之間的關系如出一轍。這一理論建立在先人對社會行為受到互惠驅動的解釋之上。亞里士多德在《尼各馬可倫理學》(Nicomachean Ethics)一書中講到,最理想的友誼建立在平等的關系基礎上,而只有真誠的互惠,才能讓這樣的關系成為可能。在柏拉圖的《克里托篇》(Crito)中,蘇格拉底認為,市民是否以感恩的責任感去遵守國家法律,和他們對父母生養教育所懷有的感恩之心是相同的。總的說來,一個事實貫穿始終,那就是,互惠指導一切。

重復囚徒困境

囚徒困境理論形成于1950年,至今已出現多種變形和演繹。其他學者也對這場博弈進行過重復性試驗,而特里弗斯則將重復囚徒困境用于動物行為的分析,并因此將這一理論推向了新的高度。重復囚徒困境,在吸血蝙蝠群落和魚兒在珊瑚礁上建立的清潔站中都可能出現,特里弗斯在論文中也對這些動物的行為進行了描述。

但是,一遍遍地重復囚徒困境究竟會發生什么,第一次提出這個問題的時間實際上是先于特里弗斯的分析的。1965年,兩位學者共同展開了對這個問題的研究:艾伯特·查瑪(Albert Chammah)是從敘利亞來到美國學習工業工程的移民,而阿納托爾·拉波波特(Anatol Rapoport)是生于俄羅斯的著名數學家兼心理學家,他利用博弈論去探索純理性思維的邊界,后來又投身于全球和平事業。在他們合著的《囚徒困境》(Prisoner’s Dilema)一書中,他們針對這一博弈的多次試驗進行了講解。

就在特里弗斯作出理論貢獻的同時,以色列數學家羅伯特·J·奧曼(Robert J. Aumann)也對博弈論提出了重要的見解。奧曼曾于20世紀60年代在冷戰軍備控制談判中擔任顧問,后來于2005年獲得了諾貝爾經濟學獎。奧曼對重復相遇的結果進行了分析,并針對不同的情況給出了合作的先決條件。舉例來說,這些情況包括當有很多參與者出現時、當互動不頻繁時,以及當參與者的行為缺乏透明度時等。

在前文中分析過的囚徒困境回報矩陣中,只進行一輪的博弈,采取背叛的行為是符合邏輯的。但奧曼的研究告訴我們,即使當玩家有著強烈的短期利益沖突時,重復性博弈也能產生和平的合作行為。一位玩家會與另一位玩家合作,因為他知道,如果今天他被對方欺騙了,那么明天他就可以針對這個欺騙行為采取懲罰對方的措施。對復仇性報復行為的規避,似乎為友善的合作鋪平了道路。從這個角度來看,從自我利益出發而進行的理性思考的確可以催生合作。奧曼將這一見解稱為“無名氏定理”(Folk Theorem),它就像許多民歌一樣,被人們口口相傳,找不到最初的作者,而且在傳播過程中也經過了許多人的修飾和改造。1959年,他又將這一理論發展為多位玩家之間的博弈,其中一些玩家會形成團伙,共同對付另一些玩家。

無名氏定理雖然強大,但并沒有告訴你應該在重復性博弈中采取什么樣的行動。這一定理實際是說,有一種策略可以引發理性對手的合作行為,但卻沒有說明什么樣的策略是好的,什么樣的策略是不好的。因此,舉例來看,我們可以說冷酷策略(Grim Strategy)是能夠引發合作的,即只要你合作,我就合作,但如果你背叛了一次,我就會永久性地采取背叛行為。然而在現實之中,這樣的策略卻遠非可以激發出長期博弈中合作態度的最佳方法。

博弈策略

冷酷策略 只要對方合作,我就合作,但如果對方背叛了一次,我就會永久地采取背叛行為。

為了找到玩這個游戲的方法,思想家們不得不等待一場新式比賽的打響,并從這樣一場比賽中看出重復囚徒困境中的所有細微差別。密歇根大學政治科學家羅伯特·阿克塞爾羅德(Robert Axelrod)發現了其中的奧秘,并將成果寫入了《合作的進化》(The Evolution of Cooperation)這一優秀的著作之中。這本著作的第一句話就令人興趣頓生:“在充滿利己主義者又缺乏中央集權的世界中,合作行為會在什么樣的情況下產生?”阿克塞爾羅德用直白的語言,清晰地講述了他所設計的新方法如何理清困境的謎團。

他組織了一場特殊的實驗:在計算機上進行一次虛擬比賽。參加比賽的各位“選手”是由眾多科學家提交的計算機程序。重復性的囚徒困境循環賽就在這些程序之間展開。當時正值20世紀70年代末期,這樣的思想在那個年代看來具有令人震驚的新奇感。為了讓大家對這場比賽所處的時代背景有一個更好的把握,我們不妨回憶一下,在同一時期,商業性的投幣視頻游戲才剛剛問世。阿克塞爾羅德的思想并不是供人娛樂的小把戲。和容易厭倦走神的人類不一樣,計算機不僅可以不知疲倦地在彼此之間執行命令和策略,還可以一絲不茍地遵守規則。

全世界的研究人員給阿克塞爾羅德郵寄來了14個不同的計算機程序。他還加上了自己的一個程序,這個程序會隨機地采取合作和背叛的行為。之后,他將所有的程序放在一起,相互之間展開循環比賽。成功很容易判定——獲勝的策略是在計算機中與所有其他策略進行比賽,并在走了200多步之后得分最高的那一個。在整場比賽中,阿克塞爾羅德一共走出了12萬步,進行了24萬種選擇。

由于計算機允許參加比賽的程序擁有無限的復雜性,有人可能會認為,最大、最“聰明”的程序才會獲得勝利。但大小并不能決定一切。事實上,最簡單的一位“選手”,反而輕而易舉地獲得了勝利,這讓許多理論家大跌眼鏡。最終的冠軍,竟然是僅有4行的計算機程序!而這部程序的設計者,就是阿納托爾·拉波波特。

這部程序的策略被命名為“以牙還牙”,第一步采取合作態度,之后的每一步都重復對方之前的一步。這一策略比冷酷策略要更加寬容。冷酷策略只消對手一步背叛,就會激發出自身永無休止的變節。

博弈策略

以牙還牙 總是懷著對對方充滿信任的態度開始博弈,之后便模仿對方上一步的動作,只有當對方背叛時,才會采取背叛行為。

脫離開囚徒困境的限定,很容易就能想明白采取簡單策略的優勢。如果你太過聰明,你的對手可能就會發現很難讀懂你的意圖;而如果你表現得太過遲鈍、含糊或令人費解,你的對手就不會產生與你合作的動機。同樣,如果一個程序(或一個人)可以清楚明確地采取行動并發出信號,讓人感覺它(他)不會輕易變卦,那么與其合作就是一個很合理的選擇。

令人驚訝的是,這個發現竟然一點兒都不新鮮。參加計算機囚徒困境比賽的選手已經了解到了這一強大的策略。實際上,20世紀70年代初發表的研究成果已經顯示出“以牙還牙”策略的優異表現。這一策略讓人回想起冷戰時期核軍備競賽的情形。當時,每一方都承諾,只要對方不使用原子彈和氫彈,自己就不會使用。許多參賽選手都試圖在這一簡單策略的基礎之上對自己的程序進行提升。“出乎人們的意料,在提交的所有復雜程序中,竟然沒有一個能與‘以牙還牙’最初的簡單版本相抗衡。”阿克塞爾羅德評論道。

為了找到成功的秘訣,阿克塞爾羅德分別詳細研究了高分和低分策略,發現其中一項屬性表現出了特別的重要性。“這就是友善的屬性,也就是說,永遠不做第一個背叛的人。”這一屬性很有意思,因為不會在對別人采取報復手段之后還心存芥蒂。由此,兩位對手之間就會永遠存在恢復“信任”的機會:如果對手進行和解,那么雙方都能獲得合作帶來的好處。

阿克塞爾羅德又組織了第二場比賽,這一次共有6個國家的63個程序參賽,參賽選手中包括一位年僅10歲的計算機小愛好者,還有一群專業方向各異的大學教授。其中一份參賽作品來自于英國生物學家約翰·梅納德·史密斯(John Maynard Smith),我們之后會對他做詳細介紹。梅納德·史密斯的作品名叫“一牙還兩牙”,這一策略是說,除非對手接連兩次采取背叛行為,否則就一直保持合作態度。梅納德·史密斯在他所在的研究領域中廣受尊敬,而在這次比賽中卻僅排在第24位。

博弈策略

一牙還兩牙 “以牙還牙”策略的變種。除非對方接連兩次采取背叛行為,否則就一直保持合作態度。

而拉波波特則秉承了英國足球隊的座右銘:“永不改變一支獲勝的團隊。”他再一次提交了“以牙還牙”策略,并再一次獲得了勝利。由此可見,遵從這條簡單的策略,的確可以有所回報。正是這場比賽,激起了卡爾·西格蒙德研究囚徒困境的興趣,而他又通過那次山間談話給了我靈感。羅伯特·阿克塞爾羅德的著作《合作的進化》,如今已實至名歸地被公認為這一領域內的經典名著。

阿克塞爾羅德的計算機比賽對現實世界是否存在一些啟迪意義呢?答案是肯定的。曼弗雷德·米林斯基(Manfred Milinski)于1987年報告了這類競賽在現實生活中的一個實例。如今,米林斯基已是位于德國普倫的馬克斯—普朗克進化生物學協會(Max Planck Institute for Evolutionary Biology)的主任。當時,米林斯基對棘魚的行為進行了研究。當梭子魚等大型掠食性魚類出現時,棘魚群中會有幾條魚兒主動接近,探查一下闖入者究竟有多大的危險性。對于這些“偵察兵”來說,“掠食者探查活動”有著極高的風險。但偵察得來的信息,不僅對它們自身有利,而且也能為整個魚群帶來好處。如果闖入者不是掠食類動物,或者剛剛吃飽、沒有餓著肚子,那么這些小魚就不用逃開。這種對逃跑必要性的評估行為,看似有些愚蠢,但實則非常重要,因為在它們天然的棲息地中,常有許多梭子魚和其他魚類游來游去,所以一碰到大魚就逃開并不是最佳的策略——很可能剛從一位掠食者眼前跑掉,就一不小心鉆進了另一位掠食者的嘴里。

米林斯基發現,棘魚在這種高風險的探查活動過程中利用了“以牙還牙”策略。如果附近出現了一條梭子魚,兩條棘魚往往會一起沖刺,游向掠食者的大嘴,去一探究竟。每一次沖刺,都可以被看作是困境博弈中的一輪。對于參加博弈的兩條魚來說,進行合作對雙方都有好處,可以降低被大魚吃掉的風險。這是因為“掠食者效應”起了作用:梭子魚在決定首先攻擊哪只或哪群獵物的時候,會浪費掉寶貴的時間。這也是“布里丹之驢”悖論在現實中的體現。這一悖論是講,一頭驢不知在兩堆干草中如何選擇,最后饑餓而死。然而,每只小魚卻都有充分的動機在行進過程中稍微落后一點,將一部分風險轉嫁到另一只棘魚身上。

為了弄明白這些小魚腦子里在想什么,米林斯基非常有創造力地在實驗中用上了鏡子。當把鏡子置于合適的位置時,就能生成一種幻象,讓一條棘魚感覺有另一條棘魚在陪伴它一同沖刺。而將鏡子稍作傾斜,米林斯基就能讓棘魚感覺,它鏡中的“同伴”是合作——與它共同前行,還是背叛——落在后面,就像是打頭陣的軍官慢慢退到隊尾、避開危險的前線。遇到鏡中的小魚“背叛”自己時,領頭的小魚會采取減速或掉頭的對策,中途放棄它的偵察任務。如果鏡中的小魚和“偵察兵”保持同樣的速度,那么后者就會比獨自執行任務時更接近掠食者。

并非有意的背叛

到目前為止,一切都直截了當、易于理解。但“以牙還牙”策略存在一個問題,而這個問題在毫無缺陷的計算機程序互動過程中并不能直接體現出來——人類和其他動物會犯錯誤。有時腦子會“短路”,有時玩家會分心,有時還會出現情緒起伏,可能有一天事事不順,心情跌到谷底。畢竟,人無完人。其中一類錯誤是由于“顫抖的手”:我想要合作,但卻因為疏忽而未能做到。另一類錯誤是由于“糊涂的腦子”:我認定這個人心懷叵測,在上一輪博弈中背叛了我,而事實上卻不是這么回事,可能我把這個人錯當成別人了。顫抖的手和糊涂的腦子,共同導致了我所謂的有“噪聲”的互動。

噪聲在合作進化過程中所扮演的重要角色,是由牛津大學的羅伯特·梅在《自然》雜志上發表的一篇論文中首先指出的。梅曾經是一位優秀的物理學家,后來對理論生物學的發展也產生了深遠的影響。鮑勃(這位澳大利亞人喜歡被稱為“鮑勃”)最著名的成就,就是實現了以數學基礎進行生態學分析的跨越。他在論文中講到,進化生物學家應該對“失誤”在重復囚徒困境中產生的影響進行研究。他認識到,從像阿克塞爾羅德競賽這樣天衣無縫的完美博弈中得出的結論,并不一定具有實際意義。

他提出的這一觀點十分重要。因為即使是不常出現的錯誤,也可能產生破壞性的后果。如果博弈雙方都采取同樣的“以牙還牙”策略,就會引發永無止境的報復行為。這是因為“以牙還牙”策略只會對背叛者進行反擊,因此一旦出現干擾信號或疏忽,就可能令“以牙還牙”的行為陷入惡性循環,在博弈雙方之間制造出比羅密歐與朱麗葉家族、哈特菲爾德和麥克伊,或科西嘉島仇殺更加慘重的血海深仇。很明顯,結束所有這些殘忍復仇惡性循環的辦法,就是忘掉過去,既往不咎。舉例來說,可以間歇性地采取報復行為,或者靠擲骰子的方法來決定是否進行報復。在鮑勃這一重要觀點的啟發之下,我對阿克塞爾羅德的開創性工作成果進行了延伸,將噪聲的影響考慮進來,讓這一理論更加貼近現實生活。

偶爾寬容的魔力

在博士研究生求學期間,我和卡爾一起設計出了一種方法,將困惑、疏忽和失誤考慮在內。用術語來說就是,我們利用概率性策略替代了傳統的確定性策略,從而使得博弈的結果更加模糊和隨機。我們決定對存在噪聲的合作進化進行研究,并在阿克塞爾羅德開創性成就的基礎上,進行了一場計算機概率性競賽。我們的想法,是對因突變和自然選擇而隨機出現的各種策略加以利用。

所有的策略都可能受到偶然性的影響。這些策略會在對方采取合作之后,以某一概率進行合作;而在對方背叛之后,也會以某一概率進行合作。可以這樣認為:我們將不同程度的“寬恕”加入到了策略組合的研究之中。有的策略是會在兩次背叛行為中寬恕一次;有的策略是會在5次背叛行為中寬恕一次,以此類推;而有些策略則是毫不通融的——這些“舊約全書”式的策略會采取永不寬恕的態度,就像“冷漠策略”一樣,在對方背叛一次之后永遠不再合作。

為了研究合作的演進,我們將各種各樣的策略與自然選擇的過程調配在一起,如此一來,獲勝的策略就能成倍增加,而失敗的競爭對手則會被淘汰。得分最高的策略將獲得子孫后代作為獎勵——出現更多和它們一樣的策略版本,而這些版本也要參加接下來的博弈。同樣,那些表現欠佳的策略就會被消滅。為了進一步體現真實性,我們進行了編排,讓繁殖的過程帶有一些不完美的因素。有時,突變也可能產生新的策略。

卡爾和我坐下來,觀察著我們創造出的這些策略在一代又一代的繁衍過程中不斷興衰、變化。我們熱切盼望能看到一個策略最終成為勝利者。雖然沒有一條進化軌跡會出現重復,但我們卻觀察到了總體上的規律性和連貫性。

競賽總是從一種“原始的混沌狀態”開始的。也就是說,初始之時僅有隨機策略的存在。在這種混亂狀態下,“永遠背叛”策略總是會在早期占據領先位置:就像許多好萊塢電影中的情節一樣,壞蛋一開始總是一幅自鳴得意的樣子。到了100代左右的時候,“永遠背叛”策略在我們的競賽中占據了支配地位。生命的劇情似乎有著令人沮喪的序幕,而大自然則冷眼旁觀,不予合作。但這一切之中,卻存在著一線希望。面對這個冷酷的敵人,一小群被圍困的“以牙還牙”策略玩家死死堅守在滅絕的邊緣。還是像好萊塢式的英雄一樣,屬于他們的勝利終將會到來——當盤剝者將所有人盤剝一空之后,當全部的弱者都被清掃干凈之時,博弈的進展方向突然出現了轉折。卡爾和我滿心歡喜地看著“永遠背叛”策略的玩家逐漸被削弱并最終消失,為合作的成功興起掃平了道路。

博弈策略

永遠背叛 不論對手策略如何,總是采取背叛行為。

無條件合作 不論對手策略如何,總是與其進行合作。

當遭遇死硬派背叛者的抵抗之時,孤立的“以牙還牙”策略玩家的表現會比永遠背叛的無賴要差一些,因為“以牙還牙”總是要在輸掉第一輪之后才能嘗到血的教訓,轉換到復仇狀態。但當與其他“以牙還牙”策略玩家對戰時,則會比“永遠背叛”策略玩家和其他強硬派的表現好出很多。在由“永遠背叛”和“以牙還牙”策略玩家組成的混合群體中,雖然后者占少數,但“友善”的態度會開始繁殖,并很快在博弈中居于支配地位。通常情況下,背叛者的表現十分糟糕,并最終銷聲匿跡,留下一群全部秉承“以牙還牙”策略的玩家。

但卡爾和我卻滿心期待著驚喜的出現。在我們的計算機競賽中,“以牙還牙”策略玩家最終并沒有獲得勝利,而是輸給了它們更加友善的表兄弟。這位表兄弟利用了“以牙還牙”的致命缺陷——對偶爾出現的失誤不夠寬容。在幾代之后,進化過程就會垂青另一個策略,也就是我們所稱的“寬宏以牙還牙”。此時,自然選擇過程轉向了最優的寬容程度:永遠以合作的態度來回報對方的合作,而當遇到背叛時,在每三次背叛中采取一次合作(具體細節取決于所運用的回報價值)。你不能讓對方知道你什么時候會表現出友善的態度,如果讓對方知道了,就是犯了一個重大的錯誤(約翰·史密斯的“一牙還二牙”策略就會輕而易舉地被交替性合作與背叛者所利用)。因此,為了不讓對方知道,寬容與堅守行為是呈概率性的。這樣一來,在對方作出背叛舉動之后,我方是否采用既往不咎的態度,就要看運氣,而并非必然。可以這樣理解“寬宏以牙還牙”:永遠不會忘記對方的好意,但會偶爾諒解對方的惡行。

博弈策略

寬宏以牙還牙 “以牙還牙”策略的變種。永遠以合作的態度來回報對方的合作。當遇到背叛時,以某一概率與對方進行合作。

“寬宏以牙還牙”可以很輕松地取代“以牙還牙”,保護自身不受背叛者的盤剝,并且在很長一段時間內都處于支配地位。但由于競賽的隨機性,這一策略無法永遠處于不可動搖的位置。我們觀察到,一批“寬宏以牙還牙”策略玩家開始以幾乎無法覺察的緩慢速度出現變化,并朝向更加仁慈的策略轉移。最終,全體玩家表現出了一致的友善:全部采取合作態度。原因就在于,當每一個人都試圖表現出友善的時候,寬容與諒解就會得到優厚的回報。玩家之間永遠存在更快采取寬容態度的動機,因為最高的獎勵來自于許多富有成效的(也就是合作性的)互動。現在,在適當的突變幫助下,背叛者們仍有再次崛起的可能。由永遠合作的友善玩家組成的統一群體,在任何殘留或新近出現的背叛者燃起的入侵火焰面前,就像枯草一般不堪一擊。新的輪回便由此開始。

這些概率性博弈雖然在細節上多少有些差異,但總體上卻遵循著同樣的規律。卡爾和我發現,一些策略會逐漸壯大聲勢,而另一些則慢慢銷聲匿跡。總體來講,這些周期與輪回的進化過程是可以預測的:從一成不變的“永遠背叛”到“以牙還牙”,再到“寬宏以牙還牙”,之后會演變成為全部合作。最終,在一次毀滅性事件的作用之下,群體成員又再一次回到受卑鄙背叛者所支配的狀態之中。

值得慶幸的是,在整場競賽中,相對較為友善的策略占據主導的情況更多一些。當我們觀察整場游戲的進展,并計算所有策略的平均出現時長時發現,最為常見的一種策略就是“寬宏以牙還牙”。而令人惋惜的是,在現實世界中,這種輪回可能會長達幾年、幾十年甚至幾百年。無數事實告訴我們,人類歷史也不乏這樣的輪回:朝代不斷更替;帝國興衰更迭;公司崛起、占領市場之后,又在強大而富有創新精神的競爭對手面前土崩瓦解。

正如這些策略中任何一個都不會在競賽中取得完勝一樣,人類社會也將永遠是合作者(守法公民)和背叛者(犯罪分子)的混合體。信仰也是同樣的道理,某一種信仰的崛起必然伴隨著另一種信仰的衰退。而正是這樣的現實,激發了奧古斯汀(Augustine)的靈感,在羅馬于公元410年被西哥特人洗劫之后,創作出了《上帝之城》(De civitate Dei)這部神學巨著。奧古斯汀希望能推翻羅馬是因為接納基督教而被削弱的說法,正如我們的計算機競賽所證實的一樣,偉大的帝國終將衰落。這就是那句名言“我雖跌倒,仍要再起”所要告訴我們的,“盛極而衰”也是同樣的道理。

在過去幾十年的發展過程中,我們可以看到,經濟生活中同樣存在著周期循環。雖然政府加強了監管,但人們還是能夠隨著時間的發展,想出妙計來加以規避。一段充滿艱苦和辛勞的歲月過后,總會迎來舒適懶散的生活,人們便會在這時開始懈怠、偷懶,占盡體制的便宜。合作與背叛的輪回,是人生的主旋律。而我們的計算機模擬,是否能在無意之間發現對這一切的數學解釋呢?

投奔牛津大學的鮑勃·梅

經過一年多的協作并發表了4篇論文之后,卡爾告訴我,我已經完成了所需要的研究,可以開始著手整理關于合作進化的博士論文了。于是,我立即開始整理工作成果。幾天之后,我將論文遞到他手里。他舉起論文,從側面仔細端詳著這摞文件,搖搖頭說:“博士論文必須要再厚一些。”第二天,我將同樣一份論文交給了他,只不過將字號調大了一些,改成了雙倍行間距。卡爾一眼便看穿了我的伎倆,但他畢竟是一位實用主義者。他看了看我的論文,說道:“就這么著吧。”

之后,卡爾建議我向領域內的領軍人物——牛津大學的鮑勃·梅即前文提到的羅伯特·梅。在英文中,鮑勃(Bob)是羅伯特(Robert)的昵稱。——編者注申請一個職位。當時,鮑勃十分出名,因為他將數學的嚴謹注入到了生物學研究領域,以此來揭示生物世界中的深層秩序。針對穩定性是否是生態系統多樣性的原因,以及反過來的多樣性是否是穩定性的原因這兩個課題,鮑勃進行了深入研究(研究發現,在生態系統中注入各種不同類型的生命體,并不能自動帶來穩定性)。他還對昆蟲及其寄生蟲之間的關系進行了制圖分析。利用數學模型,他揭示出了物種之間的聯系如何引發個體數量的波動。通過這種方式,鮑勃將混沌概念引入生物學,并揭示出,看似隨機而復雜的行為,其背后的規則其實很簡單。我在家里寫作這一段內容的時候,正坐在鮑勃提出這一發現時所用過的辦公桌旁。這是他在幫我置辦第一處房子家具時送來的禮物。

卡爾認為,我得到牛津大學工作機會的勝算并不大,因此我又申請了伯克利和哥廷根。我未來的人生、事業和一切,似乎都仰仗于這幾封不太可靠的航空郵件。就在這些郵件飛向世界各地之時,我自身也陷入了浪漫而傷感的境地。當時,我即將與厄休拉完婚,我們在維也納的時光就要告一段落。即將離家的憂愁與就要展開新旅程的興奮混雜在一起,百感交集。我們兩個人誰也不知道,哪里會是我們的歸宿。

卡爾最初的判斷顯然是英明的。鮑勃拒絕了我,說他并沒有打算建立一個團隊,而且也很少與博士后學生合作。我再次給他寫信,告訴他我可以自己帶資金過來,是埃爾溫·薛定諤(Erwin Schr?dinger)研究基金。那時,卡爾也在跟鮑勃為我爭取機會。最終,我萬分欣喜地接到了他的允諾。從某種程度上講,我職業生涯的下一步規劃終于明朗了,但我卻完全不知道將會在牛津大學遇到些什么人、經歷些什么事。

厄休拉和我在動身前往牛津之前的一個月于維也納完婚。我們在婚禮結束后向眾親友道了別,之后便回到各自父母家中,直到我們踏上火車,離開家鄉。沒有想到,我們1989年這一走,便是長達9年的時光。離家時,我們倆拖著7個行李箱和兩輛自行車。那一天刮著凜冽的冷風,天空是陰郁的灰色,一場洶涌的暴風雨即將來臨。當晚,家人一直送我們到維也納西站,依依不舍地道別。一位朋友還特意鄭重地站在我面前,握著我的手。“別給我們丟臉。”他擠出一個笑容。火車徐徐開動,淹沒在夜色之中,我的新娘也流下了忍耐已久的傷感的淚水。

第二天,渡輪將我們載到了海峽的另一端,那是我第一次將英國的景象收入眼底。這里并不像威廉·布萊克(William Blake)筆下描寫的綠色田園一樣景色宜人,而是泥土龜裂,干燥荒涼。地上的草和樹上的葉子都已枯黃,整個英國當時正處于嚴重的旱災之中。水庫已經干涸,政府頒布了澆水管禁令,如果發現有人洗車,還會處以罰款。在普利茅斯,人們甚至在用處理過的污水澆灌花壇。在一處動物園中,人們用企鵝池中的臟水噴灑高爾夫球場焦干的草地。在我們的火車停車等候時,正有一群消防隊員在前方的鐵軌上撲救火災。

當我最終走進新的辦公地址——位于南公園路的牛津大學動物學系,看著這座毫無可愛之處的水泥建筑時,發覺現實再一次給我心中的期望以嚴重的打擊。走廊上貼有鳥類和其他動物的海報,卻四處也看不見等式或圖表。不會找錯地方了吧?我心中暗自疑慮。沒有錯,而且后來我還發現,自己能夠來到這里是十分幸運的。在這里做學問,既不需要嚴格的禮節,也不用十分拘謹。這里和等級分明的奧地利學術體系完全不同。在奧地利,年輕的學子根本無法接近工作繁忙的教授先生們;而在這里,我可以邊喝咖啡或下午茶,邊與許多富有影響力的學術權威談天說地,從開創了合作理論研究的偉大的比爾·漢密爾頓(Bill Hamilton),到理查德·索思伍德爵士(Sir Richard Southwood)、理查德·道金斯(Richard Dawkins)、保羅·哈維(Paul Harvey),還有約翰·克雷布斯(John Krebs)。這里有著美妙而濃厚的學術氣氛。我逐漸對這里產生了深深的好感。

鮑勃·梅有時會跟大家一起踢足球——所有的學生和教授都像我一樣對“游戲”十分癡迷。但這一點也有些令人擔憂,因為他十分爭強好勝。在英國的傳統理念中,游戲的輸贏并不重要,若是把足球的輸贏看得太重,就會遭到人們的指摘。但這位肌肉緊實、動作靈敏的澳大利亞人可不管這一套。而對于我們其他人來說,幸運的是,他的球技十分一般。只有在天時地利人和的情況下,幸運女神才會偶爾對他笑一笑。記得我們初識沒多久的時候,有一次踢球,比分7比7平,我是鮑勃對手一方的守門員。鮑勃在比賽最后一分鐘凌空一腳,將球抽射入我的大門。他興高采烈地喊道:“馬丁,這對你的事業發展很有好處!”

鮑勃和我性格迥異,我們是一對頗為古怪的組合。他身材健壯,頭發卷曲,俏皮話連篇,對宗教不屑一顧。我比他高出很多,是個禿頭的天主教徒,有著施瓦辛格般的英國口音,而這樣的天賦在錄制電話留言時頗為有用——“我現在不在,但我會回來的!”。鮑勃個性鮮明,他對精確性情有獨鐘,總是滿口臟話,揶揄自己的研究領域和同行——“生物學家,就是想做科學家,又做不了物理學家的一群人”。從數學游戲到體育競技,我們倆人都非常熱愛博弈,也都非常好勝。記得有一次我對他說,我腦子里的德語詞匯中,壓根兒就沒有“不可戰勝”這個詞,他聽后著實困惑了許久。

我們之間的友誼與默契,對我的工作產生了強大的助推力。在諾貝爾獎獲得者、德國學者曼弗雷德·艾根(Manfred Eigen)于瑞士克洛斯特斯組織的一次學術聚會中,我想出了一個點子。之后,我便在牛津大學的第一個研究項目中,順著這個思路展開了工作。在那次聚會中,比爾·哈茲爾廷(Bill Haseltine)發表了關于人類免疫缺陷病毒(HIV)的講話,那時我意識到,艾滋病患者的體內一定有一大群緊密相關、不斷復制的病毒。這樣的想法讓我想起了與彼得·舒斯特共同在數學生物學領域進行的研究。

一天,我突然意識到,我應該開發出一個病毒感染的數學模型。但當時,我在解決這一問題時遇到了太多困難,幾乎令我的努力前功盡棄。我很幸運,當時鮑勃已經與另一位同事羅伊·安德森(Roy Anderson)就這種病毒展開了研究。他們分析了病毒是如何在人與人之間傳播的。不過,我卻想另辟蹊徑。我希望能建立一個模型,從不幸感染病毒的人類個體“內部”著手,分析病毒的發展情況。這就需要對病毒在面臨身體免疫系統攻擊的情況下如何在細胞間實現擴散進行解釋。為了搞清楚HIV在人體內的一番遭遇,我需要利用與卡爾進行模擬程序競賽類似的一種數學手段。

在感染HIV和出現艾滋病癥狀之間,通常存在著較長時間的潛伏期,而潛伏期長短在不同的患者身上也表現出巨大的差異,短則兩年,長則十幾年。我發現,我可以對這一令人迷惑的時間延遲及差異進行解釋。有幸的是,我不需要對動物和患者重新做實驗,而可以直接利用現成的數據來得出結論。我所需要的全部,就是計算機那強大的數據計算能力,并利用這一計算能力,探索出病毒在人體內部繁殖、突變的方式。

這一研究成果令鮑勃感到非常興奮,他堅持要我將新發現展示給羅伊·安德森。沒想到,當時在帝國理工學院(Imperial College London)工作的安德森也感到非常驚喜。我于1990年將研究成果首次發表于《艾滋病》(AIDS)雜志。一年之后,其他學者在我的理論基礎之上進行了擴展,總結出了臨床測試數據,并發表在《科學》雜志上。我還與巴里·布倫伯格(Barry Blumberg)一起,共同對乙肝病毒進行了研究。布倫伯格是牛津大學貝利奧爾學院(Balliol College)的研究生,因發現這種病毒并開發出病毒疫苗而獲得諾貝爾獎。這些研究成果為一門新學科的誕生奠定了基礎,這門新學科就是“病毒動力學”,其特點就是通過數學模型研究病毒在感染宿主體內的發展過程。

“寬宏以牙還牙”和“贏定輸移”

還有許多類型的博弈尚待卡爾和我去展開,太多的變體和潛在的結果亟待我們去研究。1992年,我們針對“寬宏以牙還牙”策略的研究成果發表于英國《自然》雜志上。這部雜志和美國的《科學》雜志一樣,都是科學家最希望占有一席之地的權威刊物。卡爾和我都對進一步的研究工作有著許多新想法。因此,在來到牛津之后的第二個暑假,我便再一次回到奧地利,重新開展我們對囚徒困境的探索工作。

在我們之前進行的策略計算中,玩家決策僅僅依賴于對手的上一步舉動。而這些計算,也僅僅揭示出了所有可能發生的結果中的一部分。現在,我們希望能在策略中加入對玩家自身舉動的考慮。我來舉個例子,以便人們能更準確地理解我的意思。請你將自己想象成競賽中的一名選手。如果你選擇了背叛,那么你就會比較容易理解并接受另一位玩家的背叛行為。同樣,如果你選擇了合作,就會對另一位玩家的背叛行為感到更加憤怒。

為了研究這樣的假設是否會影響到獲勝的策略,我帶著新的筆記本電腦,和卡爾一起來到了羅森伯格城堡——位于風景優美的奧地利南部的中世紀建筑群,還有一處曾作競技場之用的拱廊庭院。我之所以來到這處童話世界工作,是因為我必須要和卡爾在一起。而卡爾來到這里,是因為他要和他妻子在一起。他的妻子當時正在羅森伯格進行古建筑研究。

雖然并不知道新的計算機實驗會出現何種結果,但我卻心里有數。“寬宏以牙還牙”會再次獲勝,就是這么簡單。我跟卡爾二人觀察著博弈的進展,想要證明事實的確如此。那時,只有一件事會讓我們分心。城堡內有各種各樣的猛禽,在特定的時間段,這些猛禽會來到寬敞的庭院進行表演。身著文藝復興時期服飾的訓練師會引誘這些猛禽掠過觀眾的頭頂,作出精彩的俯沖動作。隨著這些大鳥上下翻飛,卡爾和我的目光也完全集中在了它們身上。

我們一遍又一遍地進行著模擬運算,不時停下手來去觀賞猛禽的精彩表演,驚嘆于金雕作出的千尺俯沖。不得不說,這些神奇的鳥兒對我們來說是個難能可貴的調劑,因為我們的工作遇到了棘手的問題。我的最愛——“寬宏以牙還牙”策略,竟然在筆記本電腦上的角斗競賽中遭遇連番打擊。由于我一直以來非常自信地認為這一策略可以獨占鰲頭,這樣的結果著實令人感到苦悶。那個時候的我,特別希望能有更多的鳥兒出現,將我的注意力從工作上移開。我編寫的程序中一定存在漏洞和問題。我檢查了一遍又一遍,卻什么問題也沒有找到。我一直對自己的能力抱有十足的自信,并為自己找了個永遠站得住腳的理由:“漏洞永遠存在于你沒有看到的地方。”一番周折之后我才恍然大悟,原來這次不是漏洞的問題。

“寬宏以牙還牙”的衰落趨勢向我透露了一些十分重要的信息,只不過那個時候我沒有太在意。我找到了一種可以讓問題消失的辦法,但我沒有辦法拯救“以牙還牙”。幾天之后,我不得不承認,結果是真實無誤的。于是我潛心研究,終于發現了能保持獲勝記錄的新策略。這種新策略包括以下指令,乍一看不禁感覺有些古怪:

如果我們在上一輪中都保持合作態度,那么我會再次進行合作。

如果我們都采取了背叛,那么我會(以某一概率)進行合作。

如果你合作,我背叛,那么我會再次背叛。

如果你背叛,我合作,那么我也會背叛。

總體來看,這一策略是說,只要我們采取同樣的行為,那么我就會合作;只要我們采取了不同的行為,那么我就會背叛。換句話說,這一獲勝策略會作出這樣的事情:如果我做得好回報矩陣中的Reward或Temptation。——譯者注,我就會重復我上一步的行為;如果我做得不好回報矩陣中的Sucker或Punishment。——譯者注,我就會改變之前的行為。經過這樣一番分析,我逐漸產生了興趣,心情也大為好轉。

回到牛津之后,我在動物學系的走廊上碰巧遇到著名生物學家約翰·克雷布斯,并將這一獲勝策略講給他聽。他立刻進行了指認:“這聽起來很像是‘贏定輸移’(Win Stay, Lose Shift)策略,是動物行為學家的研究課題。”鴿子、鼠類和猴類非常善于利用這一策略。人們也會用這樣的策略來訓練馬匹。其研究歷史已經長達一個世紀。對“合作”進行的簡單而理想化的計算機模擬,竟然能進化出這樣的策略,令克雷布斯感到十分吃驚。聽完他的講述,我也有同樣的感受。

博弈策略

贏定輸移 如果我們在上一輪中都采取合作行為,那么我會再次選擇合作。如果我們在上一輪中都采取背叛行為,那么我會以某一概率與對方合作。如果我們在上一輪中采取了不同的行為,那么我會選擇背叛。

現在,我必須要弄明白,為什么“贏定輸移”策略比“以牙還牙”和“寬宏以牙還牙”策略更好。通過仔細研究計算機模擬中合作與背叛的輪回,我找到了答案。以前,我們可以依據無條件合作者的大批出現,來判定一個輪回的結束和另一個輪回的開始。只要在群體中加入隨機突變,就總是會出現一位背叛者,來統治這群溫順的良民。于是,一場新的輪回就這樣上演了。我發現,“贏定輸移”的秘密就潛藏在這一階段中——存在于合作達到巔峰,友善策略非常充裕的時候。原來,無條件合作者能夠逐漸摧毀“以牙還牙”和“寬宏以牙還牙”,卻無法擊敗“贏定輸移”。

在具有現實隨機性的博弈之中,“贏定輸移”策略可以對無心或無條件的合作者加以盤剝。理由很簡單:任何小錯誤都能揭示出這樣的事實,合作者總是會繼續在丑惡行為面前保持友善態度。而且,就像這一策略的名稱一樣,“贏定輸移”會在不受到復仇行為懲罰的情況下,不斷對其他玩家加以盤剝。或者用卡爾和我的說法就是,這一策略無法被心軟的玩家所顛覆。而這一特征,正是其取得成功的關鍵原因。

“贏定輸移”策略的成功還告訴我們一個更加深刻的道理:在直截了當的確定性博弈中,看似平淡無奇的玩家,一旦碰到現實隨機性,就可能獲得完勝。我們在翻閱現有研究成果的時候發現,已經有其他研究人員針對這一策略展開了工作,只是叫法不同而已。偉大的拉波波特曾對這一策略表示不解,稱其為“傻瓜策略”。因為它看起來的確很蠢——在遇到背叛者的時候,這一策略會在合作與背叛行為之間輪換。他分析說,只有愚蠢的策略才會在遇到背叛者時每隔一步采取一次合作行為。

但事實上,這一策略與“傻瓜”之稱相距甚遠。我們的研究顯示,現實隨機性也是它取得成功的關鍵所在。當遇到背叛者時,這一策略會以某一給定概率,用無法預測的方式采取合作。這樣就可以實現自我保護,免遭機會主義者的盤剝。同樣的策略,被杜克大學和北卡羅來納州梅瑞狄斯學院的大衛和薇薇安·克雷恩斯(David and Vivian Kraines)稱為“巴普洛夫”策略。他們認為,這樣的策略可以是有效的。而且,著名美國經濟學家埃里克·馬斯金(Eric Maskin)和朱·弗登伯格(Drew Fudenberg)的研究也表明,這樣的策略可以在大約半數的囚徒困境中,實現一定程度的進化穩定性。但是,他們研究的對象都是確定性(非隨機性)版本的“贏定輸移”策略,而我們羅森伯格競賽的贏家,卻是在概率性環境中脫穎而出的。

在進化這場偉大的博弈中,卡爾和我發現,“贏定輸移”是全勝的贏家。它雖然不是大舉進攻背叛主導型社會的第一個合作策略,但只要建立了一定程度的合作基礎,這一策略就能站穩腳跟。不過它也不會永遠存在。就像“寬宏以牙還牙”一樣,“贏定輸移”最終還是會被削弱和取代。進化的過程中,永遠存在著無盡的輪回。

許多人依然認為,重復囚徒困境中最為顯著的策略當屬“以牙還牙”,但從成功的角度衡量,“贏定輸移”卻更勝一籌。“贏定輸移”甚至比“寬宏以牙還牙”更簡單一些:只要做得好,就堅持目前的選擇,否則就采取行為轉?換,并不需要理解并記住對手的行為。這一策略只關注自身的得失,以確保自己在博弈中占得先機。因此,人們就會很自然地認為,由于這一策略需要更少的認知技能,它就會更加普遍地存在。而事實上,與“以牙還牙”相比,“贏定輸移”的確更適合用來分析米林斯基的棘魚行為。

在囚徒困境的博弈中,我們是按照下面的邏輯進行思考的。如果你背叛,對方合作,那么你得到的收益就會很高。你非常開心,于是就重復了之前的行為,在下一輪中再次背叛。但是,如果你合作,對方背叛,那么你就被對方利用了。你很郁悶,于是轉換到另一種行為方式上。你以前曾經合作過,但現在你決定要背叛。我們之前的實驗顯示,“以牙還牙”是合作演進的催化劑,而現在我們看到,“贏定輸移”才是最終的發展結果。

這是否意味著我們已經徹底解決了囚徒困境這一難題呢?當然不是,我們還相距甚遠。卡爾和我在1994年意識到,這一最為微妙的簡單博弈中,還存在著我們不曾留意的另一面。所有的研究成果都建立在一個想當然的假設之上:當兩位玩家在決定合作或是背叛的時候,他們會同時采取行動。我的意思是說,傳統意義上的囚徒困境與孩子們常玩的“石頭剪子布”有些相似——兩位玩家會精準地在同一時刻作出選擇。

卡爾和我認為,這樣的限制多少有些牽強。我們可以思考一些例子,譬如吸血蝙蝠為饑餓的同伴貢獻出富余的血液、黑猩猩互相梳理毛發等,在這些情況下,合作并不是同時發生的,伙伴之間要輪換著采取行動。于是,我們決定要實踐一場囚徒困境的變體,我們稱之為“交替型囚徒困境”,來看看這樣的改變是否會產生影響,并導致不一樣的效果。

我們所進行的交替型博弈,進一步確認了我們之前判斷的正確性:進化的過程的確有朝向合作發展的趨勢。我們也觀察到了曾經出現在同步博弈中的合作主導型與背叛主導型社會的興衰輪回。與過去一樣,合作再次興起,但一個重要的變化出現了。我們驚奇地發現,曾經在同步博弈中擊敗所有對手的“贏定輸移”策略,如今卻從勝者的寶座上退了下來。接替它掌握統治大權的,是“寬宏以牙還牙”策略。

朱·弗登伯格在多年之后向我指出,可以將交替型博弈與同步博弈當成是現實生活中有著不同限制的兩種情形。如今,他也成為了我在哈佛的同事。在交替型博弈中,你先走,我后走。我在作出下一步決定之前,可以得到關于你的行動的所有相關信息,反之亦然。但是,在同步博弈中,雙方誰也不知道在這一輪中對方會采取什么樣的行動。而在我們的日常生活中,現實情況通常介于上述兩者之間——我們總能得到一些關于對方意圖的信息(他是否愿意采取配合態度等),但這樣的信息并不一定是完整可靠的。

人們是如何應用這些策略的呢?曼弗雷德·米林斯基對此進行了研究。在瑞士波恩進行的一項針對大一生物學專業學生的實驗中,合作行為主宰了同步和交替型囚徒困境。他發現,玩家堅持一種策略的傾向與博弈時間長短無關,總會有大約30%的玩家采用類似“寬宏以牙還牙”的策略,70%的玩家采用“贏定輸移”。正如我們在模擬博弈中所看到的一樣,后一種策略在同步博弈中更為成功,而類似“寬宏以牙還牙”策略的玩家則在交替型博弈中獲得了更高的分數。在人類合作的生態世界里,兩種策略都占有一定比重。

背叛與合作的輪回

直到今天,重復囚徒困境依然吸引著眾多科研工作者的好奇心。我們已經了解到,直接互惠是解決困境并促進合作的一種機制。整個過程中,兩位玩家之間會產生重復接觸,玩家可以是人,也可以是機構、公司或國家。一開始,“以牙還牙”策略似乎很容易獲勝,在多數情況下還會導致玩家的獲勝機會均等。但為了模仿失誤帶來的影響而加入一些隨機性之后,我們發現,“以牙還牙”似乎太過嚴厲,有欠寬容,會引發血腥的復仇行為。

我們需要擁有一點點寬容的態度,才能和平相處。在“贏定輸移”和“寬宏以牙還牙”策略中,我們找到了需要的東西,后者總能讓我想起鮑勃·梅曾經給我的忠告:“你永遠不會因為太過寬容而輸掉游戲。”這樣的觀點令我感觸頗深,因為他對輸贏問題的思考和理解程度,比我認識的所有人都要更加深刻。而同時,爭當第一對他來說又非常重要。他的妻子有一次曾開玩笑說,“他在家里和寵物狗玩耍的時候,也要贏過它才肯作罷。”

讓我們來對比一下“以牙還牙”和“贏定輸移”這兩個成功策略。在上一輪博弈中,如果雙方都采取合作態度,那么下一步也會繼續合作。如此看來,兩種策略都不會主動蓄意地背叛。只有出現錯誤、誤解或心情不好的時候,才會引發第一次背叛。當這種情況出現時,如果對方也選擇了背叛,那么我就被占了便宜,之后,兩種策略都指導我要在下一步行動中選擇背叛;另一方面,如果我選擇背叛,而對方采取合作,那么我就會在“以牙還牙”策略的指導下轉移到合作上來,或者在“贏定輸移”策略的指導下繼續背叛。

我們可以這樣解釋“以牙還牙”的思想過程:我現在有些后悔,希望能補償上一輪作出的背叛行為。而“贏定輸移”的思想過程則更加“人性化”:如果我在這一輪占到了他人的便宜,那么就會在接下來的幾輪中繼續這樣做。這兩種策略還存在另一點不同之處。如果兩位玩家都背叛,那么“以牙還牙”只會背叛,而且不會嘗試重新建立友好的關系;而“贏定輸移”則會采取合作態度,并嘗試恢復到更好的關系上來。

兩種選擇各有道理,但如果我們希望在所處關系中重新達成合作,那么“贏定輸移”相比之下就顯得更加現實可行。總體來看,“贏定輸移”更能適應錯誤的發生,因為這一策略會主動尋找更好的結果,在雙方均采取背叛行為之后,還能試圖恢復合作的模式,雖然也會盤剝無條件合作者。相反,“以牙還牙”則不會盤剝無條件合作者,但在對方背叛之后,也不會試圖恢復合作關系。

如果我們站在更高的角度,縱覽囚徒困境多年以來的研究發展過程,就會發現,其中一項關鍵進展就是對概率性策略影響的研究。在這樣的策略指導下,玩家會以某一種方式、在某一個時間采取行動,但不會在每種情況下都保持同樣的反應。其中我們還加入了另一種真實元素,通過觀察玩家相互交替采取行動的程度和理解對方行為的程度,我們可以認識到,現實生活中的情形介于同步型和交替型博弈兩者之間。

這些更加真實的博弈也會產生輪回,其中的策略會從“永遠背叛”發展到“以牙還牙”,再到“寬宏以牙還牙”,最后到無條件合作,然后又不可避免地回到最初的狀態,經歷背叛行為的死灰復燃。雖然“贏定輸移”可以增加一個輪回中的合作時長,但我們發現,這樣的策略最終也會土崩瓦解,為背叛者的復蘇留出空間。

我們在競賽中觀察到的輪回,與強調穩定均衡關系的傳統博弈論理論存在著很大的差別。用不著深入研究細節內容,我們就可以從古典進化與經濟博弈論所使用的語言中略知一二,例如其中經常提到的理論就包括進化穩定策略和納什均衡等。

我們已經從傳統的“進化靜力學”進入到“進化動力學”多姿多彩的世界。在過去,人們認為生命會逐步進化到一種穩定不變的狀態;而如今,這樣的想法則被一種更富動態的理論所顛覆。沒有一種策略是真正穩定的,也沒有一種策略能獲得永生。一切周而復始,循環往復。幸運女神不會永遠向一個人招手,合作的天堂終究會被充滿背叛的地獄所取代。合作的成功不僅取決于合作行為能維持多久,還要看多長時間才能出現合作的再次繁榮。原來,合作與生命的進化,竟經歷著如此美輪美奐而跌宕起伏的發展過程。

還有太多的未知等待我們去探索。迄今為止,我們僅研究了博弈中的一小部分,還有著許多尚待研究的變體。博弈論那巨大的蠻荒秘境在眼前一望無垠。雖然關于重復囚徒困境的研究文獻有成千上萬,但直接互惠模型和象棋一樣,依然存在著各種各樣的數學可能性,這跟井字游戲(tic-tac-toe)中封閉式的有限策略大不相同。關于如何解開困境這個謎題,我們的分析永遠也不會完結。這一困境沒有邊界。

主站蜘蛛池模板: 崇义县| 吴江市| 宜兴市| 友谊县| 仁布县| 沐川县| 安吉县| 阿尔山市| 广安市| 北票市| 澄迈县| 晋城| 扶绥县| 西宁市| 武功县| 民丰县| 沧源| 鹰潭市| 沐川县| 乌什县| 繁峙县| 宁都县| 马龙县| 山阴县| 喀喇沁旗| 太和县| 前郭尔| 徐汇区| 霍州市| 江源县| 兴安县| 开平市| 庆元县| 海淀区| 手游| 高淳县| 隆化县| 鄂伦春自治旗| 双峰县| 吉安市| 昌平区|