就我所知,不可能有博弈論……沒有這個(ge) 定理……我認為(wei) 在極小極大值定理被證明之前,沒有什麽(me) 值得發表的——約翰·馮(feng) ·諾伊曼
匈牙利科學家約翰·馮(feng) ·諾伊曼(1903-1957)對基礎數學、集合理論、量子力學和遍曆理論有著重要的貢獻,此外,他在計算機、核能和人工智能等方麵也深有研究。事實上,馮(feng) ·諾伊曼在1925年到1950年期間的成果是如此之大,以至於(yu) 直到今天,他發明的博弈論仍然經常被當作附注提到。
毫無疑問,現代博弈論始於(yu) 兩(liang) 人零和博弈中的混合博弈均衡,1928年,約翰·馮(feng) ·諾伊曼提供了一個(ge) 證明,這篇論文的標題是:《博弈論》。
16年後,他在1944年與(yu) 奧斯卡•摩根斯特恩( Oskar Morgenstern)合著的《博弈論與(yu) 經濟行為(wei) 理論》被認為(wei) 是博弈論領域的第一本重要著作。本文的目的是向讀者解釋馮(feng) ·諾依曼1928年極小極大值定理及其背景。
博弈論的曆史可以追溯到1713年,當時詹姆斯·瓦德格拉夫(1864-1741)發明了一種紙牌遊戲“Le Her”,艾薩克·托德亨特在1865年出版的《概率數學理論的曆史——從(cong) 帕斯卡到拉普拉斯》中描述了這個(ge) 遊戲:
彼得拿著一副普通的牌,他隨機給保羅一張牌,自己拿了一張,他們(men) 的目標是獲得一張比對手更大的牌。
牌從(cong) 小到大一次是2、3、4……騎士、王後、國王。現在,如果保羅對他的牌不滿意,他可以讓彼得與(yu) 他交換。但如果彼得有國王,他可以保留國王。
如果彼得對他發到的第一張牌不滿意,或者他對從(cong) 保羅那裏得到的牌不滿意,他可以隨機從(cong) 牌堆中換一張牌。但是,如果彼得抽到的牌是王,他就不能得到這張牌,必須保留他不滿意的那張牌。如果保羅和彼得最後得到的牌相同,則保羅為(wei) 輸家。——節選,《概率數學理論的曆史——從(cong) 帕斯卡到拉普拉斯》,作者托德亨特。
瓦德格拉夫得出的博弈結論是:
其他早期博弈論分析的例子包括詹姆斯·麥迪遜對不同稅收製度下國家的預期行為(wei) 方式的分析,以及安東(dong) 尼·古諾在1838年對雙寡頭壟斷下的納什均衡解的分析。1913年,恩斯特·澤梅洛證明了國際象棋的最優(you) 策略是嚴(yan) 格確定的,即博弈至少存在一個(ge) 雙方都使用純策略的納什均衡。所有這些早期的例子都出現在約翰·F·納什於(yu) 1949年發明的非合作博弈論之前。
匈牙利約翰·馮(feng) ·諾伊曼在1926年第一次將注意力轉向博弈論,當時他還是哥廷根大學大衛·希爾伯特的學生。馮(feng) ·諾伊曼自1923年以來一直致力於(yu) 集合論的公理化,並剛剛開始為(wei) 量子力學建立嚴(yan) 格的數學框架。根據倫(lun) 納德的說法:
在1926年的某個(ge) 時候,馮(feng) ·諾伊曼提出了他對極小極大值定理的證明,毫不奇怪,這個(ge) 證明被他同時代的研究所掩蓋。
他的方法論顯然是從(cong) 他在希爾伯特集合論中的研究中得到的公理方法。事實上,正如倫(lun) 納德所指出的那樣,“機會(hui) 的概念,通過概率的發揮而成為(wei) 中心”,這與(yu) 量子力學的非決(jue) 定論相一致。馮(feng) ·諾伊曼在他1928年的論文中指出:
概率是遊戲本身的內(nei) 在組成部分,所以沒有必要通過遊戲規則人為(wei) 地引入它,它會(hui) 自我表現。
從(cong) 曆史上看,人們(men) 認為(wei) 有兩(liang) 種方法可以優(you) 化“Le Her”等遊戲的結果:
MaxiMin法
A的選擇是由極大值準則決(jue) 定的,她會(hui) 考慮她可能采取的每種策略,在每種情況下,考慮她遵循這些策略所能獲得的最低收益。然後她選擇最小收益最大的策略。
正如作者所指出的,A的策略是極其保守和悲觀的。這是因為(wei) ,該策略很大程度上依賴於(yu) 代理人B的能力。玩家A通過這種方法確保了自己的最低收益。
MiniMax法
另一個(ge) 參與(yu) 人C,采用了MiniMax法,看看對手D在C的每種策略下能獲得多少收益,然後C選擇給D最低收益的策略,D總是這麽(me) 做以使自己的收益最大化的話。
正如戴曼德所說,“MaxiMin法假設玩家希望保證自己的最小收益。Minimax法推測一個(ge) 玩家想要保證對手的最大收益最小”。Maximin是保守貪心的, 而Minimax 是保守進攻性的。
任何事件都可以被認為(wei) 是一種策略遊戲,如果你觀察它對參與(yu) 者的影響,在外部條件下,假設參與(yu) 者是自願行動的。——摘自《數學原理》馮(feng) ·諾伊曼
在1926年的某個(ge) 時候,馮(feng) ·諾伊曼提出了他的極小極大值定理的證明。馮(feng) ·諾伊曼在1926年12月7日,也就是他23歲生日的前三周,向哥根廷大學數學學會(hui) 遞交了他的第一個(ge) 結果。他的證明是複雜的,因為(wei) 他以一種讀者難以理解的方式結合了基本概念和拓撲概念,但它仍然是一個(ge) 有效的證明。1928年,這一結果發表在兩(liang) 篇文章中:
von Neumann, J. (1928a). Sur la théorie des jeux (“On Game Theory”). Comptes Rendus de l’Académie des Sciences, 186 (25): 1689–91.
von Neumann, J. (1928b). Zur Theorie der Gesellschaftsspiele (“The Theory of Games”). Mathematische Annalen 100: 295–320.
法國數學家埃米爾·波雷爾(Émile Borel,1871-1956)在1921-27年間發表了四篇關(guan) 於(yu) 戰略博弈的論文,差不多是在同一時間,馮(feng) ·諾伊曼在他1928年的論文中發展了這一結果。馮(feng) ·諾伊曼在寫(xie) 給波萊爾的信中說,他的證明在1926年就得出了。他確信自己是獨立得出這個(ge) 結論的。
他在腳注中寫(xie) 道:
當這篇論文完成時,我在1927年1月10日看到了波雷爾的論文。波雷爾給出了對稱二人博弈的雙線性形式問題,並指出MaxMin < MinMax 極大極小是已知的。我們(men) 以上的結果回答了他的問題。
極大極小定理(如馮(feng) ·諾伊曼1928年的結果)提供了保證極小極大不等式也是一個(ge) 等式的條件,即:
馮(feng) ·諾伊曼的極小極大值定理也就是說,具有有限多個(ge) 純策略的兩(liang) 人零和博弈在Maximin和Minimax 策略相同的情況下有解。這可以保證玩家在最壞的情況下最小化可能的損失。
1937年,馮(feng) ·諾依曼利用LEJ布勞維爾關(guan) 於(yu) 緊凸集連續映射的不動點定理,提供了一個(ge) 純粹的拓撲證明,證明了一般競爭(zheng) 均衡的存在,這個(ge) 證明比他1928年的論文更清晰、更簡潔:
von Neumann, J. (1937). ‘Über ein Oikonomisches Gleichungssystem und eine Verallgemeinerung des Brouwerschen Fixpunktsatzes’ in in Menger, K. (ed). Ergebnisse eines Mathematischen Seminars. Vienna.
溫特勞布(Weintraub)後來稱這篇論文為(wei) “數學經濟學中最重要的論文”,因為(wei) 它是:
極大極小定理的第一個(ge) 純初等證明是在馮(feng) ·諾伊曼1937年的論文之後的一年,博雷爾的學生讓·維勒(Jean Ville)證明同樣的結果:
Ville, J. (1938). ‘Sur le théorié générale des jeux où intervient l’habiliité des joueurs’. In Borél et al (ed.), vol. 4. Applications des jeux de hasard, p. 105–13.
在同一章中,維勒還首次證明了可能的純博弈連續體(ti) 情況下的極大極小定理。
馮(feng) ·諾依曼1928年和1937年的論文,簡要指出博雷爾和維勒的證明,在馮(feng) ·諾依曼和摩根施特恩1944年的著作《博弈論與(yu) 經濟行為(wei) 》出版之前,關(guan) 於(yu) 博弈均衡的定義(yi) 和存在性的正式研究相對較少。兩(liang) 人於(yu) 1938年在普林斯頓第一次見麵,但直到1939年才開始討論博弈論,之後在1941年至1944年期間進行了密切合作,編寫(xie) 了第一本關(guan) 於(yu) 博弈論的長篇著作:
von Neumann, J. & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.

