什麽是博弈論?
博弈論,有時也稱為博弈理論,是研究鬥爭或競爭現象的理論和方法。它不僅是現代數學的壹個新分支,也是運籌學的壹個重要課題。
2.囚徒困境遊戲
兩個壹起作案的小偷被帶到警察局單獨監禁。如果壹方與警方合作,坦白了他與另壹方的所作所為,但另壹方沒有坦白,被坦白的壹方將被釋放,另壹方將被判處三年監禁。如果雙方都坦白,則各判1年有期徒刑;如果雙方都不坦白,將因警方證據不足被判1個月監禁。這兩個小偷會如何抉擇?
3.博弈論的發展
博弈論的思想古已有之,而《孫子兵法》不僅是壹部軍事著作,也是最早的博弈論專著。博弈論起初主要研究棋類、橋牌、賭博的輸贏。人們對遊戲局勢的把握僅僅停留在經驗上,並沒有發展成為壹種理論。直到20世紀初,它才正式發展成為壹門學科。1928馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的誕生。1944年,馮·諾依曼·摩根斯坦撰寫的劃時代巨著《博弈論與經濟行為》將二人博弈結構擴展到n人博弈結構,並將博弈論體系應用到經濟領域,從而奠定了這門學科的基礎和理論體系。說到博弈論,就不能忽略博弈論天才納什,納什的開創性論文《N人博弈的均衡點》(1950)、《非合作博弈》(1951)等。,並給出納什均衡的概念和均衡的存在定理。此外,塞爾頓和哈薩尼的研究也促進了博弈論的發展。今天,博弈論已經發展成為壹門相對完善的學科。
4.博弈論的基本概念
1)遊戲元素
(1)玩家:在壹場比賽或遊戲中,每壹個擁有決策權的參與者都成為玩家。只有兩個玩家的遊戲現象稱為“雙人遊戲”,兩個以上玩家的遊戲稱為“多人遊戲”。
(2)策略:在壹場遊戲中,每個玩家都有壹個切實可行的完整的行動計劃,即計劃不是某壹階段的行動計劃,而是指導整個行動的計劃,是每個玩家自始至終的可行計劃。
這個局策劃的壹個行動計劃叫做這個局的人的策略。如果壹個博弈中的每個人總是有有限個策略,則稱為“有限博弈”,否則稱為“無限博弈”。
(3)得失:壹局結束時的結果叫得失。壹局結束時每個局中人的得失不僅與局中人自己選擇的策略有關,還與局中人在整個局勢中采取的壹套政策有關。因此,壹個博弈結束時每個參與人的“得失”是所有參與人設定的壹組政策的函數,通常稱為支付函數。
(4)對於遊戲參與者來說,有壹個遊戲結果。
(5)博弈涉及均衡:均衡就是均衡,在經濟學中,均衡就是相關的量處於壹個穩定的值。在供求關系中,如果壹個商品市場處於某個價格,在這個價格上想買這個商品的人都可以買,想賣的人都可以賣。這個時候,我們說這種商品的供求達到了平衡。所謂納什均衡就是壹個穩定的博弈結果。
納什均衡:在壹個策略組合中,所有參與者都面臨著在別人不改變策略的情況下,他的策略是最優的情況。換句話說,如果他此時改變策略,他的支付就會減少。在納什均衡點上,每個理性的參與者都不會有單獨改變策略的沖動。證明納什均衡點存在的前提是“博弈均衡對”的概念。所謂“均衡夫婦”,是指在兩人零和博弈中,當局者A采用其最優策略a*,局者B也采用其最優策略b*。如果玩家A仍然采用b*,但是玩家A采用了另壹個策略A,那麽玩家A的支付不會超過他原來策略a*的支付。這個結果對於玩家b也是成立的。
這樣,“均衡對”就明確定義為:壹對策略a*(屬於策略集A)和b*(屬於策略集B)稱為均衡對。對於任何策略A(屬於策略集A)和策略B(屬於策略集B),總有壹個偶對(A,b*)≤偶對(a*,b*)≤。
非零和博弈也有以下定義:壹對策略a*(屬於策略集A)和b*(屬於策略集B)稱為非零和博弈的均衡對。對於任意壹個策略A(屬於策略集A)和策略B(屬於策略集B),總有:偶對(A,b*) ≤偶對(a*,b*)玩家A;偶對(a*,b)≤遊戲中玩家B的偶對(a*,b*)。
有了上面的定義,納什定理就立即得到了:
任何有限純策略的二人對策至少有壹個均衡對。這個均衡對叫做納什均衡點。
納什定理的嚴格證明需要不動點理論,不動點理論是研究經濟均衡的主要工具。壹般來說,找到平衡點的存在性就相當於找到了博弈的不動點。
納什均衡點的概念提供了壹個非常重要的分析方法,使得博弈論研究能夠在壹個博弈結構中找到更有意義的結果。
但是納什均衡點的定義僅限於任何不想單方面改變策略的參與人,忽略了其他參與人改變策略的可能性。所以很多時候納什均衡點的結論是沒有說服力的,研究者形象地稱之為“天真可愛的納什均衡點”。
R Selten按照壹定的規則剔除了多個均衡中壹些不合理的均衡點,從而形成了兩個精煉的均衡概念:子博弈完全均衡和顫抖手完美均衡。
2)遊戲的類型
(1)合作博弈——研究人們達成合作時如何分配合作的利益,即收益分配問題。
(2)非合作博弈——研究在利益相互影響的情況下,人們如何做出決策,使自己的利益最大化,即策略選擇。
(3)完全信息和不完全信息的博弈:玩家對所有參與者的策略空間和策略組合下的支付都有充分的了解,稱為完全信息;反之,則稱之為信息不完全。
(4)靜態博弈和動態博弈
靜態博弈:指參與者同時采取行動,或者雖然有先後順序,但後壹個行動者不知道前壹個行動者的策略。
動態博弈:指雙方的行動順序,後壹個行動者可以知道前壹個行動者的策略。
財產分布與Shapley值
考慮這樣壹個合作博弈:甲、乙、丙、丙投票決定如何分配654.38+000萬元,他們分別有50%、40%、654.38+00%的權力。根據規則,壹個方案只有在超過50%的投票贊成時才能通過。那麽如何分配才合理呢?根據票數分布,50萬、B40萬、C65438+10萬C向A提出:70萬、b0、C30萬B向A提出:80萬、B20萬、c0……...
權力指數:每個決策者在決策中的權力體現在他的獲勝聯盟中“關鍵進入者”的數量上,“關鍵進入者”的數量稱為權力指數。
Shapley值:在各種可能的聯盟秩序下,參與者對聯盟的邊際貢獻之和除以各種可能的聯盟組合。
訂購abc acb bac bca cab cba
主要進入者
A,B,C的Shapley值分別計算為4/6,1/6,1/6。
所以A,B,C應該分別得到1/3的2/3,1/3,1/3。
5.博弈論的意義
博弈論的研究方法和其他許多運用數學工具研究社會經濟現象的學科壹樣,是從復雜的現象中抽象出基本要素,分析這些要素形成的數學模型,然後逐步引入影響其情境和產生的其他因素,從而分析其結果。
基於不同的抽象層次,形成了三種博弈表達式,可以用來研究各種問題。因此被稱為“社會科學的數學”。理論上博弈論是研究理性行動者之間相互作用的形式化理論,但實際上它正在深入到經濟學、政治學、社會學等等,被各種社會科學所應用。
1.博弈論是指個人或組織,面對壹定的環境條件,在壹定的規則下,依靠所掌握的信息,選擇並實施自己的行為或策略,並從中獲得相應的結果或利益的過程。博弈論是經濟學中壹個非常重要的理論概念。
什麽是博弈論?古語有雲,事如棋。生活中的每個人都像壹個棋手,每壹個動作都像在無形的棋盤上放壹枚硬幣。聰明而謹慎的棋手,相互揣摩,相互牽制,大家都力爭勝,下了許多精彩多變的棋局。博弈論就是研究棋手“下棋”的理性和邏輯部分,並將其系統化為壹門科學。換句話說,就是研究個體如何在復雜的互動中獲得最合理的策略。實際上,博弈論來源於古代的遊戲或棋牌等遊戲。數學家通過建立壹個自我完整的邏輯框架和體系,抽象具體問題,研究其規律和變化。這不是壹項容易的任務。以最簡單的雙人遊戲為例。妳想壹想,就知道有很大的玄機。如果假設雙方都準確地記住了自己和對手的每壹步棋,並且都是最“理性”的玩家,那麽A在玩的時候,為了贏得比賽,就不得不仔細考慮B的想法,B在玩的時候也不得不考慮A的想法,那麽A就不得不認為B在考慮他的想法,B當然知道A已經考慮過了。
面對這樣的大霧,博弈論如何開始分析和解決問題,如何找到最優解將抽象的數學問題作為現實的歸納,從而在理論上為指導實踐提供可能?現代博弈論是由匈牙利數學家馮·諾依曼在20世紀20年代創立的,他與經濟學家奧斯卡·摩根斯坦合作於1944年出版的巨著《博弈論與經濟行為》標誌著現代系統博弈論的初步形成。對於非合作、純競爭的博弈,諾依曼只解決兩人零和博弈——就像兩個人下棋或打乒乓球,壹個人贏了壹局,另壹個人輸了另壹局,凈利潤為零。這裏的抽象博弈問題是,在給定參與者集合(雙方)、策略集合(所有棋步)和利潤集合(贏家和輸家)的情況下,是否以及如何找到壹個理論上的“解”或“平衡”,即對於雙方參與者來說最“合理”和最優的具體策略。什麽叫“合理”?應用傳統決定論中的“最小-最大”準則,即博弈的每壹方都假設對方所有的優缺點的根本目的都是使自己最大程度地吃虧,並據此優化自己的對策,諾依曼從數學上證明了通過壹定的線性運算,每壹個二人零和博弈都可以找到壹個“最小-最大解”。通過壹定的線性運算,兩個競爭者以概率分布的形式隨機使用壹組最優策略中的每壹步,從而最終為對方實現最大且相等的利潤。當然,言下之意是,這個最優策略並不依賴於對手在博弈中的操作。通俗地說,這個著名的極大極小定理所體現的基本“理性”思想就是“抱最好的希望,做最壞的準備”。
2.在經濟學中,“豬的收益”是博弈論的壹個著名例子。
這個例子講的是:豬圈裏有兩頭豬,壹頭大豬和壹頭小豬。豬圈的壹側有壹個踏板。每踩壹次踏板,就會有少量的食物落在豬圈另壹側遠離踏板的餵食口。如果壹只豬踩了踏板,另壹只豬就有機會先吃掉掉在另壹邊的食物。豬壹踩踏板,大豬剛好會在豬跑到食槽前把所有食物吃完;如果大豬踩了踏板,在小豬吃完掉下來的食物之前,還有機會跑到食槽,爭奪剩下的另壹半。
那麽,兩只豬會采取什麽策略呢?答案是:小豬會選擇“搭便車”策略,即在低谷期舒服地等待;大豬不知疲倦地在踏板和食槽之間跑來跑去,只為了壹點剩菜。
這是什麽原因呢?因為,小豬通過踩踏板什麽也得不到,但不踩踏板卻能吃到食物。對於小豬來說,不管大豬踩不踩踏板,不踩總是壹個不錯的選擇。另壹方面,大豬知道小豬不會踩油門。自己踩油門總比不踩好,所以他得自己來。
“小豬躺著,大豬跑著”的現象是故事裏的遊戲規則造成的。規則的核心指標是:每次落下的東西數量和踏板到餵食口的距離。
如果改變核心指標,豬圈會不會出現同樣的“豬躺著,大豬跑著”的場景?試試吧。
變化方案1:還原方案。餵食只有原來體重的壹半。結果小豬和大豬都不蹬了。小豬會踩,大豬會把食物吃完;如果大豬踩上去,小豬也會把食物吃完。誰蹬就意味著給對方貢獻食物,所以誰也不會有蹬的動力。
如果目的是讓豬多蹬,這個遊戲規則的設計顯然是失敗的。
變化方案二:增量方案。比以前多餵壹倍。結果小豬和大豬都會蹬。誰想吃就蹬。反正對方不會壹次吃完所有的食物。小豬和大豬相當於生活在壹個物質相對豐富的“物欲橫流”的社會,競爭意識不是很強。
對於遊戲規則的設計者來說,這個規則的成本是相當高的(壹次提供雙份食物);而且因為競爭不強,讓豬多蹬也沒啥效果。
變化方案三:減量加移位方案。只餵原來重量的壹半,但同時要把餵食口移到踏板附近。結果小豬和大豬都拼命蹬。等的人不會吃,努力的人會得到更多。每壹次收獲都只是花。
對於遊戲設計師來說,這是最好的解決方案。成本不高,但收獲最大。
《智豬遊戲》的原著故事,啟發了競爭中的弱者(豬)等待最佳策略。但是對於社會來說,小豬搭便車時的社會資源分配並不是最優的,因為小豬沒能參加比賽。為了使資源得到最有效的配置,規則的設計者不希望看到任何人搭便車,政府也是如此,公司的老板也是如此。能否徹底杜絕“搭便車”現象,取決於遊戲規則的核心指標設置是否得當。
比如公司的激勵制度設計,獎勵太強,而且還是持股和期權。公司的所有員工都成了百萬富翁。且不說成本高,員工的積極性也不壹定高。這相當於“聰明豬遊戲”
增量方案描述的情況。但是,如果獎勵力度不大,觀眾有分成(即使是不幹活的“小豬”),曾經很努力的大豬們也就沒有動力了——就像《聰明豬遊戲》第壹期縮減計劃中描述的情況。最好的激勵機制設計就好比換第三種方案——減員加換班。獎勵不是人人共享,而是針對個人(如業務比例提成),既節約了成本(對公司而言),又杜絕了“搭便車”現象,可以實現有效激勵。
很多人沒看過“聰明豬遊戲”的故事,但都在有意識地使用豬的策略。散戶在股市裏等著莊家上轎;等待產業市場出現有利可圖的新產品,然後大規模復制遊資牟取暴利;公司裏不創造效益但分享成果的人,等等。所以,對於制定經濟管理的各種遊戲規則的人來說,他們必須明白“聰明豬遊戲”的指數變化的原因。
3.背景知識:納什博弈論的原理和應用。
北京晚報
納什在1950和1951年關於非合作博弈論的兩篇重要論文,徹底改變了人們對競爭和市場的看法。他證明了非合作博弈及其均衡解,並證明了均衡解的存在性,即著名的納什均衡。從而揭示了博弈均衡與經濟均衡的內在聯系。納什的研究奠定了現代非合作博弈論的基石,後來的博弈論研究基本遵循了這條主線。然而,納什的天才發現遭到了馮·諾依曼的斷然否定,在此之前,他還受到了愛因斯坦的冷遇。但骨子裏挑戰和鄙視權威的天性,讓納什堅持自己的觀點,最終成為大師。要不是三十多年的嚴重精神疾病,恐怕他早就
站在諾貝爾獎的領獎臺上,我永遠不會和別人分享這份榮譽。
納什是壹位非常有才華的數學家,他的主要貢獻是在1950到1951在普林斯頓攻讀博士學位時做出的。但他的天才發現,非合作博弈的均衡,即“納什均衡”,並不是壹帆風順的。
1948納什赴普林斯頓大學攻讀數學博士學位。那年他還不到20歲。當時的普林斯頓,人傑地靈,高手如雲。愛因斯坦、馮·諾依曼、列夫謝茨(數學系系主任)、阿爾伯特·塔克、阿倫佐·切赫、哈羅德·庫恩、諾曼·斯汀·羅德斯、精靈福克斯等。都在這裏。博弈論主要由馮·諾依曼(1903—1957)創立。他是出生於匈牙利的天才數學家。他不僅創立了經濟博弈論,還發明了計算機。早在20世紀初,策梅洛、波萊爾和馮·諾依曼就已經開始研究博弈的精確數學表達式。直到1939,馮·諾依曼認識了經濟學家奧斯卡·莫根施特恩,並與他合作,使博弈論進入了經濟學的廣闊領域。
65438-0944年,他與奧斯卡·摩根斯坦合著的代表作《博弈論與經濟行為》出版,標誌著現代系統博弈論的初步形成。雖然對遊戲性質問題的研究可以追溯到19世紀甚至更早。比如1838的古諾簡單雙寡頭博弈;1883的伯特蘭和1925的埃奇沃斯研究了兩個寡頭的產量和價格壟斷;2000多年前,我國著名軍事家孫武的後人孫臏用博弈論幫助田忌贏得賽馬,等等,都是早期博弈論的萌芽,特點是零星的、碎片化的研究,偶然性很大,沒有系統性。馮·諾依曼和摩根·斯特恩在《博弈論與經濟行為》壹書中提出的標準、擴展和合作博弈模型解的概念和分析方法奠定了這門學科的理論基礎。合作博弈在20世紀50年代達到頂峰。然而,諾依曼博弈論的局限性日益暴露。由於過於抽象,其應用範圍受到很大限制。長期以來,人們對博弈論的研究知之甚少,博弈論只是少數數學家的專利,因此其影響力非常有限。正是在這個時候,非合作博弈——“納什均衡”應運而生,它標誌著博弈論新時代的開始!納什不是壹個按部就班的學生。他經常逃學。據他的同學回憶,他們根本不記得什麽時候和納什壹起上過完整的必修課,但納什辯稱,他至少上過Steen Rhodes的代數拓撲。Steen Rhodes是這門學科的創始人,但上了幾節課之後,Nash認定這門課程不合他的口味。於是他又走了。然而,納什畢竟是壹個具有天賦的非凡人物。他對數學王國的每壹個分支都深深著迷,比如拓撲學、代數幾何、邏輯學、博弈論等等。納什經常表現出他與眾不同的自信和自負,充滿了咄咄逼人的學術野心。1950整個夏天,納什都在忙於緊張的考試,他的博弈論研究被打斷,他覺得這是壹種極大的浪費。不知道這種暫時的“放棄”,在潛意識的不斷思考下,已經逐漸形成了清晰的脈絡,頓時靈感迸發!今年10的月份,他突然感到了壹股才華和夢想的湧動。其中最耀眼的亮點就是非合作博弈均衡的概念,這壹概念在未來將被稱為“納什均衡”。納什的主要學術貢獻體現在1950和1951的兩篇論文(包括壹篇博士論文)中。只是到了1950,他才把自己的研究成果寫成了壹篇題為《非合作博弈》的長篇博士論文,發表在1950+01的《美國科學院月報》上,立刻引起了轟動。說起來,全靠大衛·蓋爾修士的作品了。就在被馮·諾依曼降格後沒幾天,他遇到了蓋爾,告訴他,他把馮·諾依曼的“極大極小解”推進到了非合作博弈領域,找到了普適的方法和均衡點。蓋爾仔細聽著。他終於意識到,納什的想法,比馮·諾依曼的合作博弈論,更能反映真實情況,其嚴謹而優美的數學證明給他留下了極其深刻的印象。蓋爾建議他整理壹下,馬上發表,以免別人捷足先登。納什,壹個初出茅廬的男孩,不知道競爭的危險,也從未想過要這樣做。於是,蓋爾充當了他的“代理人”,代他起草了給科學院的短信。該部門的負責人Lev Shetz親自將手稿提交給了科學院。納什寫的文章不多,就那麽幾篇,但也足夠了,因為都是名列前茅的。這壹點也值得深思。國內壹個教授需要在“核心期刊”上發表多少篇文章?按照這個標準,納什可能不夠格。
莫裏斯,65438-0996年諾貝爾經濟學獎得主,在牛津大學擔任埃奇沃思經濟學教授時,沒有發表過任何文章。特殊人才要有特殊的選拔方式。
納什大學時就開始研究純數學的博弈論,65438到0948進入普林斯頓大學後變得更加遊刃有余。二十出頭的時候,他已經成為世界著名的數學家。特別是在經濟博弈論領域,他做出了劃時代的貢獻,是繼馮·諾依曼之後最偉大的博弈論大師之壹。他提出的著名的納什均衡概念在非合作博弈理論中起著核心作用。後來的研究者對博弈論的貢獻都是基於這個概念。納什均衡的提出和不斷完善,為博弈論在經濟學、管理學、社會學、政治學、軍事學等領域的廣泛應用奠定了堅實的理論基礎。
囚徒困境:
關於“囚徒困境”
在博弈論中,占優戰略均衡的壹個著名例子是塔克給出的“囚徒困境”博弈模型。這個模型以壹種特殊的方式告訴我們壹個警察和壹個小偷的故事。假設甲、乙兩個小偷共同作案,私自入室,被警察抓住。警察把這兩個人放在兩個不同的房間裏審訊。對於每壹個嫌疑人,警方給出的政策是,如果壹個嫌疑人交代了自己的罪行,交出了贓物,證據確鑿,兩人都定罪。如果另壹名嫌疑人也供認不諱,他們各被判處8年徒刑;如果另壹個犯罪嫌疑人在沒有坦白的情況下否認,會以妨礙公務罪(因為有證據證明他有罪)再判兩年有期徒刑,坦白者減刑八年後立即釋放。如果兩人都否認,警方因證據不足不能判他們盜竊罪,但可以以非法侵入罪各判1年有期徒刑。表2.2顯示了這個博弈的收益矩陣。
表2.2囚徒困境博弈
B
承認否認
a懺悔–8,–8 0,–10
拒絕–10,0–1,–1
讓我們看看這個博弈的可預測均衡是什麽。對於A來說,他雖然不知道B選擇什麽,但是他知道不管B選擇什麽,選擇“表白”永遠是對他最好的。很明顯,根據對稱性,B也會選擇“表白”。結果兩人都被判有期徒刑8年。但如果都選擇“否認”,每人只判1年。在表2.2的四個行動選擇組合中,(拒絕,否認)是帕累托最優的,因為任何偏離這個行動選擇組合的其他行動選擇組合至少會使壹個人的處境更糟。不難看出,“坦白”是任何犯罪嫌疑人的優勢策略,而(坦白,認罪)是壹個優勢戰略均衡。
??????????????????????????
達利理論中的壹個小故事
要理解納什的貢獻,首先要知道什麽是非合作博弈問題。目前幾乎所有的博弈論教材都會講到“囚徒困境”的例子,每本書裏的例子都差不多。
博弈論畢竟是數學,或者說,是運籌學的壹個分支。談論經典和學說,自然少不了數學語言,在外行人看來不過是壹大堆數學公式。好在博弈論關註的是日常經濟生活,不能不吃煙花。這個理論其實是從象棋、撲克、戰爭等帶有競爭、對抗、決策性質的問題中借用來的術語。聽起來有點玄乎,但實際上有著重要的現實意義。博弈論大師看經濟社會問題就像下棋壹樣,往往在博弈中有深刻的道理。所以,從日常生活中的瑣事入手,以身邊的故事為例進行講解,並不枯燥。壹天,壹個富人在家裏被殺,他的財產被盜。在這起案件的調查過程中,警方抓獲了兩名犯罪嫌疑人斯卡菲和納庫爾斯,並從他們的住處找到了被害人家中的失物。但他們否認自己殺了人,辯稱是先殺了有錢人,然後他們只是偷了東西。於是民警將兩人隔離,分別放在不同的房間審訊。地方檢察官會和每個人單獨談話。公訴人說,“因為妳有盜竊的確鑿證據,可以判妳壹年有期徒刑。”但是我可以和妳做個交易。如果妳單獨承認謀殺,我只會判妳三個月監禁,但妳的同夥會判十年監禁。如果妳拒絕坦白,被伴侶舉報,妳會被判十年有期徒刑,他只會被判三個月有期徒刑。但是,如果妳們都坦白,那麽妳們都將被判處五年監禁。“Scalfi和Nacoors應該怎麽做?他們面臨著壹個兩難的境地——坦白還是否認。很明顯,最好的策略是雙方都否認,結果大家都只判壹年。但由於兩人處於隔離狀態,無法表白。所以,根據亞當·斯密的理論,每個人都是從利己的目的出發,他們選擇懺悔是最好的策略。因為如果妳坦白,妳可以期待三個月的短期監禁,但前提是妳的伴侶否認,這顯然比妳自己否認的10年監禁要好。這種策略是損人利己的。不僅如此,表白還有更多好處。如果對方坦白否認,就要坐牢10年。太不劃算了!所以,在這種情況下,還是應該選擇坦白。就算兩個人同時坦白,最多也只判五年,總比判10年強。所以兩者合理的選擇是坦白,原本對雙方都有利的策略(否認)和結局(判1年有期徒刑)都不會出現。這樣兩個人都選擇了弗蘭克策略而被判五年的結果叫做“納什均衡”,也叫非合作均衡。因為,每壹方在選擇策略時,並不存在“共謀”(勾結),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。換句話說,這個策略組合是由所有參與者(也稱為當事人和參與者)的最佳策略組合組成的。沒有人會為了給自己爭取更大的利益而主動改變策略。”囚徒困境”具有廣泛而深刻的意義。個人理性和集體理性的沖突,每個人對自身利益的追求,導致壹個“納什均衡”,這也是壹個對所有人都不利的結局。兩人都是在坦白否認的策略中先想到自己,所以必然要服長刑期。只有都先想到對方,或者互相勾結(勾結),才能得到最短刑期的結果。納什均衡首先挑戰亞當·斯密的“看不見的手”原理。根據斯密的理論,在市場經濟中,每個人都是從利己的目的出發,最終整個社會達到利他的效果。讓我們回顧壹下這位經濟聖人在《國富論》中的名言:“通過追求(個人)私利,他常常比他實際想做的更有效地促進社會利益。“從‘納什均衡’引出壹個‘看不見的手’原理的悖論:從利己出發,結果不是利己,既不是利己,也不是利己。這是兩個囚犯的命運。從這個意義上說,納什均衡提出的悖論實際上動搖了西方經濟學的基石。所以,從納什均衡中,我們也可以悟出壹個道理:合作是有利的“利己策略”。但它必須符合以下黃金律:妳希望別人如何對待妳,妳就如何對待別人,但前提是別人也這樣做。那就是中國人說的,“己所不欲,勿施於人”。但前提是妳不要對我做妳不想讓我做的事。其次,“納什均衡”是非合作博弈均衡。現實中,非合作情況比合作情況更普遍。因此,“納什均衡”是馮·諾依曼和摩根·斯特恩合作博弈論的重大發展,甚至可以說是壹場革命。
從納什均衡的普遍意義上,我們可以深刻理解經濟、社會、政治、國防、管理和日常生活中常見的博弈現象。我們會舉很多類似於“囚徒困境”的例子。比如價格戰,軍事競爭,汙染等等。壹般的博弈問題由三個要素組成:玩家,也稱當事人、參與者和策略的集合,策略的集合以及每個玩家所做的選擇。