- 產出隨機供應鏈博弈模型研究
- 羅加蓉 陳旭
- 2996字
- 2021-09-28 16:08:54
第三節 博弈論
一 博弈論概念及發展
博弈論(Game Theory)又稱為對策論或游戲理論,是研究具有競爭或斗爭現象的數學理論和方法,既是現代數學的一個新分支,也是運籌學的一個重要學科。博弈的思想源遠流長,對博弈論的研究可以追溯到世紀,甚至更早。中國春秋戰國時代孫武所著的兵書《孫子兵法》和“田忌賽馬”故事,都蘊含著豐富的博弈論思想。從理論角度,博弈論的發展歷程可分為如下幾個階段[15]。
(1)萌芽階段
19世紀30年代至20世紀30年代是博弈論的萌芽階段。1983年,古諾(Cournot)在其論著中論述了“寡頭競爭”模型及其“問題解”,被認為是現代非合作博弈論最核心的概念——納什均衡的最早版本。之后,伯特蘭德(Bertrand)、艾奇沃斯(Edgeworth)、斯坦科爾伯格(Stackelberg)等人對不完全競爭等問題進行了系統的研究,這些研究為博弈論的建立奠定了堅實的基礎。
(2)產生階段
20世紀四五十年代是博弈論的創立時期。1944年,美國科學家馮·諾依曼(von Neumann)和經濟學家摩根斯坦(Oskar Morgenstern)在《博弈論與經濟行為》一書中首次對博弈理論進行了系統化和形式化,標志著博弈論作為一門學科的正式形成。1950年,塔克(Tucker)提出并研究了非合作博弈的經典范例“囚徒困境”問題;1950年,約翰·納什撰寫了《人博弈中的經濟行為》一文,給出了均衡概念的定義并利用不動點定理證明了博弈均衡點的存在;1951年,納什完成了其博士論文《非合作博弈》并發表在美國全國科學院每月公報上,為博弈論的發展奠定了堅實的基礎,后人為紀念納什的這一偉大貢獻,將納什論文中提出的“均衡點”概念定義為“納什均衡”。
(3)發展階段
20世紀六七十年代是博弈論的發展時期。1965年,澤爾騰(Selten)在納什均衡概念基礎上提出了“子博弈完美納什均衡”,1975年他又提出了“顫抖手均衡”的概念。1967—1968年,海薩尼(Harsanyi)提出了完美貝葉斯納什均衡,并引入了動態博弈和不完全信息博弈,使得博弈論發展在一些關鍵環節取得了突破。1965年,第一屆博弈論國際專題討論會在耶路撒冷召開;1972年,摩根斯坦創立了關注博弈論第一本學術期刊。
(4)繁榮階段
20世紀80年代以來,博弈論進入繁榮時期。眾多博弈論專家在非合作博弈和合作博弈領域進行了大量的研究工作,提出了許多研究成果。1994年的諾貝爾經濟學獎授予了納什、海薩尼、澤爾騰,以表彰他們對非合作博弈理論的產生和發展做出的巨大貢獻,權威地肯定了博弈論在經濟學分支學科的地位和作用。莫里斯(Mirrlees)和維克瑞(Vickery)基于不對稱信息條件下激勵機制問題方面的基礎性研究獲得1996年諾貝爾經濟學獎。2001年諾貝爾經濟學獎授予了美國教授阿克爾洛夫(Akerlof)、斯彭斯(Spence)和斯蒂格利茨(Stiglitz),以表彰他們“對充滿不對稱信息市場進行分析”領域做出的重要貢獻。通過博弈論研究人們對沖突和合作的理解,2005年以色列經濟學家奧曼(Aumann)和美國經濟學家謝林(Schelling)被授予了諾貝爾經濟學獎。
二 博弈論基本要素
博弈論是研究相互依賴、相互影響的決策主體理性決策行為以及這些決策均衡結果的理論。博弈即一些個人、團隊或組織,在一定環境條件,一定規則下,同時或先后,一次或多次,從各自允許選擇的行為或策略中進行選擇并加以實施,并從中取得各自相應結果的過程。博弈論包括參與人、信息、行動、策略、收益、均衡和結果等基本概念。其中,參與人、策略和收益是描述一個博弈必不可少的要素,而行動和信息是“積木”。參與人、行動和結果統稱為博弈規則。博弈分析的目的是使用博弈規則預測均衡。因此,一個完整的博弈應該包含如下幾項要素[16]。
(1)參與人(Player):也稱局中人或博弈方,是指博弈中能獨立決策、獨立行動并承擔決策結果的個人或組織。小到一個人,大到一個跨國公司甚至一個國家,只要能獨立決策和行動,都可視作一個博弈方。對于參與人而言,在博弈過程中,參與人必須有不同的行動可作應對選擇。在博弈的結局中,參與人能知道或計算出各參與人對不同行動組合產生的收益(或效用)。
(2)策略空間(Strategy Space):是指各博弈方各自可選擇的全部策略或行為的集合。不同的博弈中可供博弈方選擇的策略或行為的數量很不相同,在同一博弈中,不同博弈方的可選策略或行為也常不同,有時只有有限幾種,甚至只有一種,而有時可能有許多種,甚至無限多種。每一個策略都對應一個相應的結果。因為信息集包含了一個參與人有關其他參與人之前行動的知識,而策略告訴該參與人如何對其他參與人的行動做出反應。因此,策略是參與人的“相機行動方案”。應當強調的是,策略與行動是兩個不同的概念,策略是行動規則而不是行動本身。
(3)收益(Payoff):也稱支付,是指博弈方策略實施后的結果,每個博弈的參與者都會獲得一個收益。收益即收入、利潤、損失、量化的效用、社會效用和經濟福利等,可以是正值,也可以是負值。理性的博弈方總是選擇能使自己獲得最大得益的策略。
(4)行動次序(Action Order):博弈中各博弈方行動的順序對于博弈的結果是非常重要的。同樣的博弈方、同樣的策略空間,先后決策并行動和同時決策行動,其結果是大相徑庭的,不同的次序必然是不同的博弈。
(5)均衡(Equilibirum):通過各參與主體博弈行動結束,一個在特定條件下產生的均衡策略達成了最優狀態。在均衡戰略實施時,參與方在博弈過程中發生的實際行動序列稱為均衡結果。均衡結果是均衡策略的外在表現。
在以上五個要素中,前面三個要素被稱作博弈的基本要素。
三 博弈論分類
博弈的分類根據不同的標準有不同的分類[17]。按照參與人是否合作,博弈可以分為合作博弈和非合作博弈。合作博弈和非合作博弈的區別在于相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。合作博弈強調的是團體理性、效率、公正和公平;非合作博弈強調的是個人理性、個人最優決策,其結果可能是有效率的,也可能是低效率或無效率的。
從參與人行為的時間序列性,博弈論進一步分為靜態博弈、動態博弈兩類:靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但后行動者并不知道先行動者采取了什么具體行動;動態博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。通俗的理解,“囚徒困境”就是同時決策的,屬于靜態博弈;棋牌類游戲等決策或行動有先后次序的,屬于動態博弈。
從參與人互相掌握信息的程度不同,博弈論可分為完全信息博弈和不完全信息博弈兩種情況。完全信息博弈是指在博弈過程中,每一位參與人對其他參與人的特征、策略空間及收益函數有準確的信息。不完全信息博弈是指如果參與人對其他參與人的特征、策略空間及收益函數信息了解得不夠準確,或者不是對所有參與人的特征、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈是不完全信息博弈。博弈論的分類見表2-1。
表2-1 博弈論的分類及均衡解

博弈論還有很多分類,例如,以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈;以表現形式也可以分為一般型(戰略型)或者展開型,等等。
經過幾十年的研究和發展,博弈理論已發展成一門較完善的學科,其應用范圍涉及經濟學、政治學、軍事、外交、國際關系、公關選擇、犯罪學等諸多領域。但毋庸置疑的是,博弈論在經濟學中的應用最為廣泛和成功,同時經濟學反過來對博弈論的發展也作出了最大的貢獻。其根本原因是,經濟學和博弈論的理論基礎有相似的地方,兩者都強調理性,即有約束的優化行為。經濟學研究如何利用稀缺資源,并將它們分配給不同個人的資源分配與競爭問題,而博弈理論對于以個體優化目標為基礎的分布控制與決策問題,是一種很好的數學研究工具。