關于我們
書單推薦
新書推薦
|
合作的復雜性
阿克塞爾羅德主持的“囚徒困境重復博弈計算機程序奧林匹克競賽”在學術界無人不知。其試驗結果,對當代社會科學許多領域的傳統(tǒng)理念產生了廣發(fā)的影響和沖擊。在本書中,作者從其最初贏得全球聲譽的《合作的進化》中“一報還一報”的簡單模型策略中,細致地“復雜化”出更多豐富結論。作者在對“重復囚徒困境博弈”試驗結果的理論意義和所引發(fā)問題進行具體討論的基礎上,側重于研究博弈中的合作。書中設計了一個接近人類社會群體的現(xiàn)實情景,引入噪聲考量和博弈規(guī)則,利用計算機程序建模,進行試驗,并在理論上分析可行性。作者把模型從外生偏好假設中解放出來,這將為社會科學的進步掃除很多障礙。
人與人之間的合作,是人類文明社會的基礎。在對人類合作生發(fā)機制及其道德基礎的理論探源方面,阿克塞爾羅德教授及其合作者們的研究已經取得了豐碩的成果,并對經濟學、政治學、社會學、人類學、倫理學、法學,甚至生物學等學科產生了廣泛且深遠的影響。這種“重復囚徒困境計算機程序博弈競賽”,已把人類合作機制的一些模糊的經驗感悟和直觀猜測(如中文諺語“善有善報惡有惡報,不是不報時候未到),現(xiàn)在已經成了計算模型所證實的精確計算結果,這顯然是人類認識史上的一個巨大理論進步。因為,這一研究不僅對經濟學和政治學中的社會選擇理論有著重要的理論意義,而且對倫理學或道德哲學,也提出了一些值得深思的問題。從本書的研究中,每個處在現(xiàn)代社會的理性的個人,都可以從中學到一些如何做人和如何進行社會選擇的道理,或起碼可以從中獲得某些啟示。
從合作的進化到合作的復雜性
一、引言 在當代經濟學、政治學、倫理學、人類學和其他社會科學中,甚至在生物學和其他自然科學中,阿克塞爾羅德(Robert Axelrod)教授的“重復囚徒困境博弈計算機程序奧林匹克競賽”,已經是一件很少人不知曉的理論佳話了。其試驗結果,不僅對當代社會科學的許多領域的傳統(tǒng)理念都產生了廣泛影響和沖擊,而且從中引發(fā)出來的一系列問題,迄今仍待學術各界進一步探討和回答。 在具體展開討論由阿克塞爾羅德所主持設計的“重復囚徒困境博弈”試驗結果的理論意義和所引發(fā)的問題之前,這里謹對本書作者做簡要介紹。阿克塞爾羅德教授1964年獲芝加哥大學數(shù)學學士,1966年和1969年相繼從耶魯大學獲政治學碩士和博士學位。從耶魯大學畢業(yè)后,他曾在加州大學伯克利分校任教,并于1974年轉而在密歇根大學(the university of Michigan)執(zhí)教,現(xiàn)為密歇根大學政治系和福特公共政策學院的“沃爾格林人類理解研究講座教授”(the Walgreen professor for study of human understanding),以及“阿瑟?W.布羅米奇(ArthurW.Bromage)政治學與公共政策杰出教授”。阿克塞爾羅德的主要著作有:《利益沖突:歧異目標理論以及在政治中的應用》(1970),《認知與選擇通論》(1972),《合作的進化》(1984,這本著作已經被翻譯為11種文字),《制服復雜性:從科學前沿來審視組織的意義》(2000),以及本書《合作的復雜性:基于參與者競爭與合作的模型》(1997,這本書也已經被翻譯為日文、韓文、西班牙文等多國文字)。除此之外,阿克塞爾羅德教授還有數(shù)十篇學術論文發(fā)表在國際學術期刊或已經出版的文集中。 在上述著作中,最為國際學術界所熟知的還是其《合作的進化》這部名著,而本書則是《合作的進化》的續(xù)篇和補充。 二、問題的提出:人類群體是如何達致合作的? 人類社會與其他動物群體的一個重要區(qū)別是,人與人之間可以通過運用個人理性而達致某種形式的合作(我這里所說的合作,包括諸如勞動與社會分工、專業(yè)化,市場交易,合伙和共同經營企業(yè),以及在經濟組織、社會團體、政黨、政治聯(lián)盟、各種民間和公益團體中人們的相互協(xié)作、交往和協(xié)調行動,等等)。合作,能產生“合作剩余”,這應該是經濟學的一個常識——盡管沒有多少經濟學教科書真正講“合作剩余”這個概念(Moulin,1995)。人類的相互交往,用現(xiàn)代比較時尚的博弈論術語講,就是在玩一種“社會博弈”。在人類社會的博弈中,常常會出現(xiàn)一種叫“囚徒困境”的博弈格局。囚徒困境博弈格局表明,若依照當代主流經濟學的理論推理假設,有著超理性(hyper rational)的最大化推理的博弈者(players)在許多博弈格局中——按照博弈論中的“無名氏定理”(the Folk Theorem),即使是在有限重復囚徒困境博弈中——也是無法達致合作或言帕累托效率的。 然而,博弈論和經濟學的理論預測是如此,但現(xiàn)實情形卻是,在任何人類文明社會中,在人與人之間總是存在這樣和那樣形式的合作,因而阿克塞爾羅德(Axelrod,1984;羅伯特?阿克塞爾羅德,2007年,第3頁)曾認為:“合作現(xiàn)象四處可見,它是文明的基礎!边@樣就出現(xiàn)了一個經濟社會理論所必須回答的問題:在每個人都具有自私動機的情況下,人們怎樣才能通過社會博弈而自發(fā)產生合作?換言之,人類合作能否從有著自己利益最大化推理邏輯的行動者的行為互動中自發(fā)產生?或更直接一點說,人們到底是如何跳出這處處存在且沒完沒了的種種“囚徒困境”迷局的? 從人類經濟社會思想史的理論進展來看,盡管“囚徒困境博弈”的理論程式到1950年才被人們設計出來,但如何克服個人短期和眼前的私利而通過合作最大化人類的社會福祉這一問題,卻在很早就被各學科的一些重要思想家們認識到并且提了出來。從西方社會思想史來看,在這方面最為人們所熟知的例子是霍布斯(Thomas Hobbes,1943)的“利維坦”和盧梭(Jean JacquesRousseau,1968)的“社會契約理論”。按照霍布斯的理論思路,沒有一個作為利維坦的機構(可大致理解為“作為國家政府的集權體制機構”),人類合作將是不可能產生的,因此,一個強權的政府機構是必要的。而按照盧梭的理論路徑,一些自由人之間相互交往會產生“公意”(general will),在公意存在的情況下,通過某種“社會契約”,就可以達致并維持某種人類社會或社群之間的某種合作。 然而,問題到這里并沒有結束。即使我們同意作為一個巨大利維坦的政府機構對促進社會合作有某種作用,但是反過來的問題是:如何避免一個龐大的政府官僚科層制所可能帶來的效率損失?于是,通過霍布斯的利維坦形式而達致的社會合作,就有一個通過這種方式所達致的“合作剩余”與官僚科層制可能帶來的“效率耗散”的替代關系。 盧梭的社會契約論,就其本質而論,也是想解決人類社會的合作問題,但盧梭的政治主張和理論路徑,也不是沒有問題的。這里尤為值得指出的是,盡管盧梭批評了霍布斯的君主專制主張,提出在人類最初處于“自然狀態(tài)”時是人人自由平等的這種天賦人權觀,并主張在此理論基礎上通過自由人的公意簽立契約而建立國家,設立政府,并在政府的治理之下實現(xiàn)社會合作,但盧梭的社會理論本身卻以共和制為形式的專制獨裁的理論為導向,從而在現(xiàn)實中,受盧梭和其他法國啟蒙思想家的社會哲學和政治主張的影響,法國在18世紀末和19世紀上半葉也確實發(fā)生了一場場腥風血雨的大革命。今天究其理論邏輯,我們會發(fā)現(xiàn),按照盧梭的政治理論,集體意志(公意)是維系契約社會的紐帶,沒有對公共利益的維護,沒有集體意志(公意)的運用,契約就等于一紙空文,人類社會的合作也難以發(fā)生和存續(xù),由此盧梭認為,公民有義務把公意看成是自己的意志。在此情況下,若有任何人拒不服從公意,全體就要逼迫他服從公意。因而,根據(jù)盧梭的人民主權論的這一邏輯推理,如果某個人或某個組織代表公意,那么這個人或組織就有權力來統(tǒng)馭、控制和指導整個社會。這樣一來,一種代表公意的專制集權統(tǒng)治就自然而然地內在于這一政治推理邏輯之中了。由此看來,與其說盧梭的社會契約論是想達致在人人自愿基礎上的某種社會合作,而毋寧說他是主張一些人以“集體理性”和“社會公意”為名義實行個人的專制獨裁。就此而論,盡管盧梭從詞語上不同意霍布斯的君主專制政體主張,但在通過控制社會來強制人們進行某種社會選擇這一問題上,二者卻可謂是殊途同歸。 概言之,從霍布斯到盧梭,西方古典社會契約論的一個基本理論假設是,一個具有共同利益的群體會在某種外在強制力量和社會安排下為實現(xiàn)共同利益而采取集體行動,并且這要么導致君主專制,要么達致共和獨裁。然而,這是人類社會所命定的必然選擇嗎?人類是否必須接受霍布斯的“利維坦”或盧梭的“人民主權者”的專制統(tǒng)治,并只有在此統(tǒng)治之下才能實現(xiàn)某種形式的社會合作?換句話說,哈耶克(Hayek,1988)在《致命的自負》一書中所提出的人類合作的擴展秩序(the extended order of human cooperation)能否自發(fā)生成和自然成長?如果能,其自發(fā)生成和自然擴展的外在條件和社會機制又是什么?這些問題追問到最后,都會牽涉到人類內部——或具體到個人之間——合作的原初發(fā)生機制和維系機理問題。從這個角度來審視問題,今天我們也許會發(fā)現(xiàn),在20世紀由美國著名經濟學家曼瑟爾?奧爾森(Mancur Olson)所詰問的人類社會的“集體行動的邏輯”,實際上是把人類合作如何可能這類霍布斯和盧梭式的老問題,在現(xiàn)代社會科學的話語語境中重新提了出來,并把它還原到人與人之間的個人博弈的層面上來進行考察。 這里不妨讓我們再簡單回顧一下奧爾森的集體行動的邏輯。奧爾森認為,每一個個人都是理性的“經濟人”,個人不僅在個體活動中,而且在集體活動中,其目的都只有一個,那就是不斷追求個人利益的最大化。正是由于這種個人的自利傾向,使得集體行動在大的集團中成為一種不可能的事。因為,集團越大,就越難克服集體行動中的“搭便車”行為:人人都想分享集體行動的成果,但不愿分擔集體行動的成本。奧爾森集體行動的邏輯所面臨的問題,顯然也是人類社會中經常且時時存在的多人囚徒困境博弈中眾人的“合作選擇”如何成為可能的問題。面對這個古老、簡單而似乎又萬古常新的理論問題,奧爾森的推理邏輯如此單刀直入卻又不乏深刻:“除非一個集團中人數(shù)很少,或者除非存在強制或其他某些特殊手段以使個人按照他們的共同利益行事,有理性的、尋求自我利益的個人不會采取行動以實現(xiàn)他們共同的或集團的利益。”(Olson,1980;曼瑟爾?奧爾森,1995年,第2頁)很顯然,奧爾森只不過是在20世紀復述了一遍霍布斯和盧梭所提出的老問題。 霍布斯和盧梭的思想,以及后來奧爾森的工作,在人類思想史上無疑均有重要的歷史意義,且在人類數(shù)百年的現(xiàn)代化進程中,霍布斯的利維坦和盧梭的社會契約論,均能在歐洲社會的歷史上存在過的政治和社會體制中發(fā)現(xiàn)其理論的現(xiàn)實體現(xiàn)(incarnation)。然而,人類社會的合作,遠比這兩位古典政治哲學家眼中的政治體制問題要寬泛得多。從國與國之間的軍備競賽、國際貿易、關稅協(xié)定的制定和恪守,到商家雙頭(duopoly)和多頭(oligopoly)競爭、合伙制與現(xiàn)代科層制公司內部的運作和管理、公共物品的提供,再到鄰里相處、朋友相交、夫妻之道、家庭維系……這時時、處處、事事似乎都充滿著超越囚徒困境博弈的合作選擇問題,以至于可以認為,沒有人與人之間的合作,沒有人們對單次或重復囚徒困境博弈均衡選擇的超越,就沒有人類的文明社會。但是,反過來說,沒有人們面臨諸種囚徒困境博弈格局中的“均衡”選擇,即“背叛”,人類社會中的國家、法律、禮俗、規(guī)范、組織和種種制度,在很大程度上也就成為多余的了。那么,人類社會究竟是如何在一些囚徒困境博弈的格局中達致相互合作的?在面臨著隨時出現(xiàn)的囚徒困境博弈格局時,作為一個理性(包括康德哲學意義上的純粹理性和實踐理性,或更確切說,即包括新古典主流經濟學理論話語中的個人利益和效用的最大化的理性行為,也包括休謨、斯密和康德道德哲學中的道德情感和定言命令)的行動者,在面臨著一個又一個的重復和不重復囚徒困境博弈格局時,對你來說最好的選擇是什么?或言你應該如何選擇? 這種種問題,既是些理論問題,也是些現(xiàn)實問題;既是牽涉到人類社群組織和社會政制的深層發(fā)生機制和原理,也牽涉到個人層面的道德標準和個人選擇的優(yōu)化問題。這一系列看似簡單但實際上又十分復雜、且看似表層但實際上是社會和社群構成基礎的深層問題,就被阿克塞爾羅德在20世紀80年代連續(xù)設計進行的三次“囚徒困境重復博弈計算機程序奧林匹克競賽”所充分展示出來了。 三、阿克塞爾羅德“囚徒困境重復博弈計算機程序奧林匹克競賽”結果及理論意義 這里,首先讓我們介紹一下阿克塞爾羅德所指導進行的三次重復囚徒困境博弈實驗的模型設計和試驗結果,然后再綜合評價這三屆博弈實驗結果的理論意義。在下一小節(jié)中,我們再來討論阿克塞爾羅德的《合作的復雜性》這本著作的主要理論貢獻及其現(xiàn)實意義。 稍熟悉現(xiàn)代博弈論的讀者會知道,囚徒困境(thePrisonerDilemma,簡稱“PD”)一般有以下簡單直觀的形式: C(合作)D(背叛) C(合作)R,R S,T D(背叛)T,S P,P 圖1囚徒困境博弈的一般形式 其中,按照英文字符所代表的縮略詞的一般意義來解釋:R,對博弈雙方合作的報酬支付報酬(reward for mutual cooperation);T,博弈者采取背叛策略的誘惑(temptation to defect);S,對策略選擇中自己采取合作策略,而對方采取背叛策略的“愚蠢策略”(sucker spayoff)的回報;P,對雙方背叛的懲罰(punishment for mutual defection)。根據(jù)上述定義,囚徒困境博弈的一般方程式為:PD=T>R>P>S。根據(jù)囚徒困境的這種一般形式,為了簡便計算,阿克塞爾羅德為其博弈競賽設計了一個如圖2所示的有限次重復博弈的支付矩陣。 策略i C(合作) D(背叛) 策略j C(合作) R=3,R=3 S=0,T=5 D(背叛) T=5,S=0 P=1,P=1 圖2阿克塞爾羅德重復囚徒困境博弈支付矩陣 設計好了這個支付矩陣后,阿克塞爾羅德為他的整個重復囚徒困境博弈奧林匹克錦標賽的目標設計了這樣一個標準:找出在這種重復囚徒困境博弈“錦標賽”中哪種策略是最好的(即能收到的總支付最大)。為了達到這一點,阿克塞爾羅德想出了一個聰明的辦法,就是向博弈論專家們發(fā)出廣告,讓有興趣參賽的博弈論專家和一些社會科學家各自設計一種自認為是最好的策略,來參加他的“博弈策略”比賽。在第一次實驗中,阿克塞爾羅德共收到14個“策略參賽者”。為了便于評判,阿克塞爾羅德增加了自己的第15個策略程序“隨機策略”,也就是“沒有策略的策略”:隨機地出“合作”(C)和“背叛”(D)牌。阿克塞爾羅德還把他的“隨機策略”作為“比賽”的底線。因為,如果有哪一個策略比“隨機策略”的總得分還差,那一定是糟糕透了的策略。 在決定這15個參賽策略后,阿克塞爾羅德把它們都轉換成同一種電腦語言并在一臺大型計算機中讓它們一一對壘。既然有15種策略,就有225場“比賽”,其中包括每個策略程序也與自己對壘(同一種策略程序對壘)。阿克塞爾羅德還讓每場“比賽”玩200個回合。通過這225場200個回合的博弈“比賽”,看哪一個策略參賽者能獲得的支付最多。如圖2所示,支付的點數(shù)是這樣計算的:在每次博弈中,相互合作(C,C),得支付R=3;此方背叛對方合作(D,C),得T=5;互相背叛(D,D),雙方都受到懲罰,得P=1;此方合作對方背叛(C,D),得被欺騙的回報S=0。在此博弈弈局安排中,理論上只有一種策略組合能達15000分,那就是15場200個回合的比賽全是(D,C)(每個回合全得T=5分)。反過來,如全部(C,D),得最低總分S=0。但這兩個極端不會發(fā)生。因為沒有一個策略會在對方全出背叛牌(D)時而自己全出合作牌(C)。實際上,任何一種策略平均每場“比賽”所得支付不會超過600。這是兩個參賽程序在一場200個回合對抗賽中全出合作牌(C,C)自己所能得的分數(shù)。所以,阿克塞爾羅德把600分作為基準分,而將所有參賽策略的比賽成績換算成這一分數(shù)的百分比。 由于阿克塞爾羅德的“重復囚徒困境博弈”比賽的參賽程序全由博弈論專家所提供,有些參賽程序看來設計得非常精明。但是,令人出乎預料的是,第一屆博弈對抗賽的冠軍竟是在所有策略中最簡單(除了阿克塞爾羅德本人的“隨機策略”外)且表面上看來非!昂┲薄钡摹耙粓筮一報”(tit for tat,簡稱“TFT”)策略。這個策略是由加拿大多倫多大學的著名博弈論心理學家阿納托爾?拉波波特(Anatol Rapoport)教授提供的!耙粓筮一報”策略非常簡單:第一回合取“合作”,然后每一回合都重復對手的上一回合的策略。 阿克塞爾羅德第一屆“重復囚徒困境博弈”比賽的結果出來了:“一報還一報”得第一,平均得分504.5,即600基準分的84%。其他8個好的策略中,得基準分介于28.6%和83.4%之間。令人跌破眼鏡的是,在阿克塞爾羅德的第一次“博弈比賽”中,最失敗的就是最復雜的那一個策略。 為什么簡單平直的“一報還一報”策略會獲勝?道理似乎很復雜,也似乎很簡單。當遇到“合作對手”時,它永遠合作。即使遇到同類“一報還一報”時,由于大家都是從合作開始,也就保持了永遠合作,故所得“合作剩余”也總是最高。當“一報還一報”遇到“狡詐的”策略程序時,你怎么來,我就怎么往,一報還一報,故也不會比你差。從中,阿克塞爾羅德得出一個基本結論:好的策略的標準是永遠不先背叛!耙粓筮一報”就是一個例子。它會背叛,但只是在報復時才如此。這似乎令人相信,“善于合作的好人”在社會博弈的長期比賽中得分結果會很好,而不管遇到的博弈對手是“善良型”的,還是“詭詐型”的。阿克塞爾羅德的第一屆博弈大賽也表明,好的策略必須有三個特征:“善良”、“寬恕”和“不嫉妒”。所謂“善良”,就是從不主動地先背叛。所謂“寬恕”,就是指很容易忘卻對方過去的“錯誤”。一旦對方“改過”,即以合作對待。這兩點“一報還一報”均具備,故占這次博弈比賽的榜首。所謂“不嫉妒”,就是當別的參賽者“賺”得和你一樣多時,你仍然很高興,而且樂于同時從“莊家”那里贏錢。很顯然,“一報還一報”也是一種不嫉妒的策略。因為,它從來沒有真正地贏過任何一場比賽。由于“一報還一報”從不先背叛,它從來沒有在任何一場比賽中比對手獲得的支付更高。它似乎傾向于與對手分享高分。相比之下,博弈論常識中由所謂“倒推法”所推出的“有限重復囚徒困境博弈不會產生合作,而只有無限重復的囚徒困境博弈才會產生合作”的“俗定理”,就是基于一種“嫉妒”心理而進行推理的。因為,它總是假定每個博弈者總想取得比對手更高的支付分數(shù)。事實上,“俗定理”所展示的是最理性、最精明但也是“最愚蠢”(聰明反被聰明誤)的博弈推理。這種博弈推理所導致的重復囚徒困境博弈的比賽結果肯定是最差的,因為它導致了永遠背叛的策略對(D,D)。實際上,這種倒推推理的邏輯也表明,新古典和博弈論理性最大化理論陣營所派出的博弈參賽者只是短視地看到它在與對手進行博弈,而沒有意識到它是與對手一起在與“莊家”博弈。 在第一屆重復囚徒困境博弈對抗賽的結果出來之后,阿克塞爾羅德又組織了第二屆比賽。這次比賽他共收到62套策略程序,加上他的“沒有策略的策略”即“隨機策略”,共63套策略參賽。第二次,每局比賽也不再是每場200個回合了,而是更多,因而基準分數(shù)也不再是600了。在征集第二屆博弈對抗賽的參賽策略時,阿克塞爾羅德還把第一屆比賽結果告訴了所有第二屆博弈對抗賽的參賽策略程序設計者,并附有他自己的分析,說明為什么善良及寬恕的策略會在第一屆博弈對抗賽中表現(xiàn)得如此優(yōu)秀。但第二屆博弈對抗賽的策略設計者們在收到第一屆對抗賽的結果和阿克塞爾羅德的說明后,在設計他們的新參賽策略時有兩種思路。一派博弈論專家根據(jù)“善有善報”推理送來了善良且寬恕的策略。著名的生物學家、演化博弈論的奠基人約翰?梅納德?史密斯(John Maynard Smith)甚至還送來“超級寬恕”程序“兩怨還一報”的策略。另一派專家則推想到大多數(shù)同仁會進一步提供善良和寬厚的策略而反其道而行之,設計出更加“細膩”、“精明”、“狡詐”和“不友善”的策略,以旨在“整整”這些來參賽的“愚笨好人(策略)”。 然而,第二屆對抗賽結果出來了:狡詐的策略再度失敗,阿納托爾?拉波波特的“一報還一報”策略再度獲勝,并且得了基準得分的96%。而且,“善良”的策略再次普遍表現(xiàn)得比“狡詐”的策略好。在前15名中只有一個不是“善良”的策略,最后15名中只有一個不是“狡詐”策略。不過,史密斯的“兩怨還一報”策略在這一屆博弈對抗賽沒有贏。這可能是因為它過于“善良”和“寬厚”因而被那些“精明”而“詭詐”的策略所“無情捕殺”。阿克塞爾羅德從第二屆博弈對抗賽中甚至還發(fā)現(xiàn),“一報還一報”這一“善良”、“憨直”的策略之所以獲勝,是因為參加第二屆博弈對抗賽的策略大部分是“善良型”的。他還推斷到,如果參賽的其他62個策略全是“詭詐型”的,“一報還一報”策略可能就不會贏了。因為,它也會像史密斯的更加“善良”和“寬厚”的“兩怨還一報”策略一樣被狡詐的策略“群狼”所“捕殺”。 事實上,阿克塞爾羅德后來又進行了他的第三屆“重復囚徒困境博弈對抗賽”。但這次他并沒有征集新的策略,而是在改變電腦程序后,讓第二屆的所有參賽策略重新進行比賽。在第三屆對抗賽中,阿克塞爾羅德主要沿著演化博弈(或譯進化博弈)的理論思路,想從對抗賽中找出史密斯的“演化穩(wěn)定策略”(Evolutionary Stable Strategies,ESSs)。為了達到這一目的,阿克塞爾羅德先將63套策略程序存入電腦,讓其作為演化博弈的第一代。在第一代之間的對抗賽結束時,每一種策略的勝利不是由所得分數(shù)來評判,而是根據(jù)由每種策略產生多少“后代”來決定。當一個子代生成后,有些策略逐步變得稀少起來,有些甚至完全消失了,而其他策略則變得多了起來。經過1000代,策略的比例和環(huán)境都不再改變而達到了一定程度的穩(wěn)定。第三屆“重復囚徒困境演化博弈”的實驗結果表明,幾乎所有“詭詐型”策略都在200代左右完全消失了!耙粓筮一報”策略仍然在第三屆演化博弈比賽中表現(xiàn)得很出色。其他5種“善良而不懦弱”的策略也和“一報還一報”同樣成功。阿克塞爾羅德最后還發(fā)現(xiàn),當演化博弈競賽中所有“詭詐”策略都絕跡后,已無法區(qū)分“一報還一報”和別的“善良型”策略,也無法區(qū)別出任何兩種競賽策略之間的差異了。因為,他們全是“善良”型的,即只會向對方出“合作牌”。對于這一演化博弈結果,生物學家道金斯(Dawkins,1989,p.233)感慨地歸納道:“即使有自私的基因掌權控制,好人仍能得好報!” …… 韋森2007年9月于復旦大學
羅伯特·阿克塞爾羅德,密歇根大學政治學與公共政策教授,美國科學院院士,著名的行為分析與博弈論專家,主要由于他在博弈論和復雜性理論上的基礎性突破而廣為人知。阿克塞爾羅德是把計算機模型運用到社會科學問題領域的資深學者。作者受到過來自美國科學促進會、美國政治科學協(xié)會、麥克阿瑟基金會以及美國國家科學院的獎勵。除本書外,還著有《合作的進化》等著作。
從合作的進化到合作的復雜性/1
英文版前言/1 導論/1 第一章演化新策略/9 第二章處理噪音/30 第三章發(fā)展規(guī)范/42 第四章選擇陣營/72 第五章設定標準/99 第六章建構新的政治行動者/128 第七章文化的散布/154 附錄A 復制基于參與者模型/189 附錄B 基于參與者模型的學習指引/215 譯后記/234
預測第二次世界大戰(zhàn)中歐洲的聯(lián)盟
就國際關系而言,聚合問題通常就是指聯(lián)盟問題。解釋國際聯(lián)盟的主要思路是:國家之所以要組成聯(lián)盟,主要是為了抵御其他強權國家的侵略。根據(jù)這種現(xiàn)實主義的范式,國家的平衡行為是在一個無政府主義的國際系統(tǒng)中展開的,每個國家都把他國看作自己的敵人。在地形理論中,這就意味著所有的傾向值都相等,且為負。在此基礎上,該理論再預測出一種穩(wěn)定的聯(lián)盟格局,其中對抗的雙方在規(guī)模上達到平衡。這個預測格局之所以具有穩(wěn)定性,是因為處于局部能量最低點。如果把規(guī)模換成權力,在現(xiàn)實主義假設下,可以準確地說,地形理論所預測的就是權力聯(lián)盟之間的平衡結果。 事實上,當國家進行有關聯(lián)盟的抉擇時,它們所考慮的決不僅僅是權力問題。斯蒂芬·沃爾特(Stephen Walt)的新現(xiàn)實主義認為,國家會在多種威脅之間進行平衡。格倫·斯奈德(Glenn Snyder)則指出,國家可能有某些興趣偏向會影響到它對于其他所有國家的行為,比如希望獲得軍事保護,不過,它和具體的某一個國家之間也有個別的沖突或喜好,這可能來自于意識形態(tài)、種族、經濟或者威望等層面。這種“普遍興趣”和“特殊興趣”在國與國之間建立起了一種“默契的聯(lián)盟”。把這些興趣與新現(xiàn)實主義的范式結合在一起,可以認為,斯奈德的“沖突和共同點”正是一國從他國感受到的威脅的來源。喬治·利斯卡(George Liska)進一步聯(lián)想到,意識形態(tài)和歷史基礎很可能已經預設了“理性的”聯(lián)盟選擇。事實上,聯(lián)盟選擇既取決于權力又取決于興趣的看法在學者中并不少見。 不幸的是,此前還沒有哪個一致的聯(lián)盟模型將個別的興趣和喜好整合進來。對于這種整合,地形理論的做法是將多種多樣的興趣放在一個單一的傾向概念里面,然后再把它和規(guī)模(權力)結合起來,二者共同決定最后的結果。 地形理論還能克服對于某些領導聯(lián)盟研究的局限。此類研究專注于單個國家的抉擇,因而無法預測聯(lián)盟聚合的整體形式。但地形理論能夠明確地把在降低受挫感直至到達局部最低點的過程中國家行動的秩序都考慮進來,從而解決預測聯(lián)盟聚合的整體格局的難題。 接下來,我們開始從國際聯(lián)盟問題入手運行和檢驗地形理論。其實不管運用到哪一個領域中去,地形理論的運行和檢驗都要求回答四個問題: 1.行動者是誰? 2.他們的規(guī)模如何? 3.每一對行動者之間的傾向是怎樣? 4.實際的結果是什么? 這四個問題的答案取決于要考察的具體領域。因為此處我們所要進行的是在國際聯(lián)盟問題上運行和檢驗地形理論,所以可以引第二次世界大戰(zhàn)以前的歐洲為例。即使我們假定行動者只能是個聯(lián)盟格局中的任一方里的一員,這個案例仍然能說明問題。隨著戰(zhàn)爭越來越臨近,國家開始漸漸被劃分為對立的兩組,如華爾茲(Waltz)所說:“只有當權力政治的博弈真的十分艱難時,參與者才會形成兩個敵對的陣營。因為要達成并維持聯(lián)盟實在是一項萬般復雜的工程,只有戰(zhàn)爭高壓迫使政治博弈達到難分高下的地步才會導致如此的結果。”這項檢驗的目標是預測戰(zhàn)爭期間實際形成的國家聯(lián)盟格局,選擇的行動者是20世紀30年代參與了主要的外交活動的17個歐洲國家。每個國家的規(guī)模用戰(zhàn)爭相關數(shù)據(jù)庫(Correlates of War project)中的國家實力指數(shù)來衡量,該指數(shù)由人口、工業(yè)和戰(zhàn)爭能力等6個因素合成。 如前所述,權力并不是國家在進行聯(lián)盟抉擇時考慮的唯一因素。但是,雖然現(xiàn)有研究對于權力已經有了深入的分析,卻沒有現(xiàn)成的針對國家興趣的分類定義法能讓我們編制出一個以興趣為基礎的傾向指標來。于是我們只能嘗試著自己創(chuàng)造一種分類定義法,即把兩國之間的興趣分為種族、宗教、領土、意識形態(tài)、經濟和歷史關系。我們有理由認為,這種分類定義法已經包含了國家間相同點和不同點的主要可能,因為它們都會影響到國家的戰(zhàn)略決策。具體地說,在被考察的國家中,我們會考察每一對之間的種族沖突狀況、人民宗教信仰的相似程度、邊界分歧的現(xiàn)狀、統(tǒng)治類型的相似性以及二者近來是否發(fā)生過戰(zhàn)爭。然后把這5種因素的權重組合在一起,就可以作為衡量每對國家之間的合作傾向的指標。有了以上的衡量規(guī)模和傾向的方法,我們便能夠計算出65536種可能的格局中每一種的能量值。 我們要預測的是在第二次世界大戰(zhàn)期間每一個國家的聯(lián)盟行為。對于這一點,我們通過它是否被別國侵略過或者是否有別國對它宣戰(zhàn)來判斷。根據(jù)這一標準,二戰(zhàn)中歐洲實際的聯(lián)盟分布是:一方是英國、法國、蘇聯(lián)、捷克斯洛伐克、丹麥、希臘、波蘭和南斯拉夫,而另一方是德國、意大利、匈牙利、愛沙尼亞、芬蘭、拉脫維亞、立陶宛和羅馬尼亞;葡萄牙與英國有防衛(wèi)協(xié)議,保持中立。 使用1936年的規(guī)模數(shù)據(jù)得出的地形圖有兩個局部最低點,我們稱之為格局1和格局2,如表4.1所示。它們對戰(zhàn)爭爆發(fā)后會有怎樣的聯(lián)盟格局分別給出了具體的預測。結果非常驚人:格局1除了錯把波蘭和葡萄牙放在了德國一邊以外,基本上就和戰(zhàn)爭中實際的聯(lián)盟格局一致。而格局2則應該被稱為支持/反對蘇聯(lián)聯(lián)盟,其中蘇聯(lián)、希臘和南斯拉夫是一方,其他所有國家是另一方。 怎么會這樣呢?首先,這個結果在統(tǒng)計上是顯著的:不管是兩個格局中的哪一個,它把17個被預測國家算錯2個以下的概率都小于1/200。其次,格局1的引力盆地比格局2要大2倍多(一個是47945種可能,一個是17591種),因此,從一個隨機的初始位置出發(fā),落向它的可能性就大得多。所以,只要從二戰(zhàn)期間實際聯(lián)盟格局中去掉兩個國家(波蘭和葡萄牙),就肯定會是在格局1的引力盆地之內。這個格局同樣也是全局的能量最低點,更重要的是,它能夠正確地說明所有的大國以及絕大部分小國的聯(lián)盟狀況。總之,若以人口、工業(yè)和軍事力量編制出國家實力指數(shù),將其作為指標,該指標對于這些國家總規(guī)模的96%的預測都是正確的。 如歷史所證明,國家們并沒有走到小一些的那個引力盆地中去,如果那樣的話,聯(lián)盟格局將會是簡單的支持/反對蘇聯(lián)的格局。雖然在已經知道了謎底的情況下我們會覺得那種結局簡直難以置信,但對于當時的參與者來說,它卻并不是那么不合情理。而全局最優(yōu)格局把波蘭錯放在德國的一邊,也并非荒謬不堪。因為波蘭的外交政策是對強鄰德國和蘇聯(lián)都采取敵對的態(tài)度。實際上,二者的確都對它虎視眈眈,盡管1939年9月1日是德國首先侵略了波蘭,但是僅僅16天后,蘇聯(lián)也采取了同樣的舉動。這里之所以把波蘭歸到德國一方(事實上它是帶著對英國一方的同情而保持中立),可能是我們因為對文化和經濟的相似性所采取的指標不太恰當。 雖然格局1和事實非常接近,但格局2給出的另一種可能其實也很有趣。此時,蘇聯(lián)和希臘、南斯拉夫結成一派,敵方是所有其他國家(參見表4.1)。在兩種格局中,希臘和南斯拉夫都是加入蘇聯(lián)所在的一方,這主要是因為二者都和德國發(fā)生過戰(zhàn)爭,從而不愿意與它結盟。另一方面,這兩種格局里德國和蘇聯(lián)都是敵對方。而其他國家?guī)缀趺總都有理由不與德國或者蘇聯(lián)結盟,它們和這二者的主要差別在于它們是民主政體,只是在第一種格局中聯(lián)合起來反對德國這個大敵人,而第二種格局中它們反對的是蘇聯(lián)。 即使將1936年的數(shù)據(jù)代入上述的標準的權力和傾向指標,用地形理論進行預測,這些戰(zhàn)爭爆發(fā)幾年前的數(shù)據(jù)得出的結果也和二戰(zhàn)中實際的聯(lián)盟狀況十分一致。盡管如此,有人會說,使用簡單的現(xiàn)實主義方法來預測也可能得到同樣好的效果,F(xiàn)實主義方法假設所有的國家,或者說絕大部分國家,都彼此害怕。放在地形理論里面,這就意味著其兩兩傾向都是相等且為負的,可以設為-1。我們用同樣的數(shù)據(jù)檢驗了現(xiàn)實主義模型,得到的結果卻很糟糕:17個國家,傾向全都是-1,規(guī)模仍然如前所定義,得到的結果卻是有209個不同的穩(wěn)定格局,而且這209者中沒有哪一個像地形模型所預測的那樣準確。而即使只對5個傾向為負的大國進行分析,也會得出4種穩(wěn)定格局,但沒有哪一個正好是英國、法國和蘇聯(lián)對抗德國和意大利。從中可見,如果不知道1936年這些國家之間具體的種族、宗教、領土、意識形態(tài)和歷史問題狀況,現(xiàn)實主義模型就沒有足夠的信息可以做出準確的預測,F(xiàn)實主義方法的基本問題在于,它沒有足夠的信息去把各種類型的聯(lián)盟傾向區(qū)分開來,許多不同的聯(lián)盟看上去都是似是而非的。 在對于二戰(zhàn)聯(lián)盟問題的分析上,傾向矩陣的集群分析也可能得出很好的預測結果。集群分析法通常假設集群的對象是等權重的,那么為了盡可能地接近地形理論,我們就要換用一個以規(guī)模為權重的傾向相異度矩陣(dissimilarity matrix of propensities)。然后用不加權的分對平均法(UPGMA)計算出相異度,即采用標準分層凝聚法(standardhierarchicalagglomerativetechnique)對該矩陣進行集群處理,因為這種方法與我們的目標最為一致。它得出的兩方集群結果是希臘和蘇聯(lián)一組,共同反對其他所有國家。這就和地形理論的第二種最優(yōu)結果相似,卻與歷史事實大相徑庭。如果我們只就大國進行集群,結果也是把蘇聯(lián)放在反對英國、法國、德國和意大利的對立面。 可見,在靜態(tài)分析的方法中,地形理論在估計聯(lián)盟結果方面優(yōu)于其他方法。我們可以用事實進一步地檢驗,隨著二戰(zhàn)一步一步臨近,軍事開支、尤其是德國的軍事開支迅速膨脹,國家的相對規(guī)模(也就是說國家實力)發(fā)生了變化。那么把這種變化納入到計算當中來,看看隨著越來越接近戰(zhàn)爭真正爆發(fā)的時刻,地形及相應的預測結果會有什么變化,這正是我們接下來將要進行的一個有趣的練習。 1937年,我們得出的兩個格局與1936年相同,即與二戰(zhàn)實際情況相同(除了波蘭和葡萄牙)的格局1和支持/反對蘇聯(lián)型的格局2。到1938年,局部最優(yōu)點只有一個,即格局1。這可能是由于英國國內輿論越來越傾向于與蘇聯(lián)結盟,而把對共產主義的反感暫時放在一邊。到了1939年,局部最優(yōu)點又只有一個,它和格局1很像,唯一不同的是把波蘭從反蘇聯(lián)的一方搬到了反德國的一方。這可能要歸因于德國的實力越來越強,到1939年時已經比蘇聯(lián)強大得多了。 總之,這個理論用早到1936年的數(shù)據(jù)對二戰(zhàn)期間的歐洲聯(lián)盟格局進行預測非常準確,而且,數(shù)據(jù)年份越靠后,預測越完美。到1938年,2個預測縮減成為了1個,1939年的唯一預測格局則對17個國家當中的16個都預測正確了。這個結果出現(xiàn)的概率實際非常小,少于1/3000。而且,地形理論的預測結果與實際的歷史現(xiàn)實逐漸接近的過程也正是20世紀30年代后期歐洲所實際發(fā)生的變化的一面鏡子,反映出被動員起來投入戰(zhàn)爭的國家不斷調整的行動。 非常值得注意的是,能得出與歷史現(xiàn)實如此一致預測的,竟是這樣一個簡單的理論及其概念的少量應用。而且尤其驚人的是,除了與歷史相符的預測外,它的另一種結果對于歷史的可能性來說也是合情合理的。 我們知道,除地形理論外,只有一個關于二戰(zhàn)期間聯(lián)盟格局的預測理論,那就是理性選擇理論的阿爾特菲爾德比爾諾·德梅斯奎塔(Altfeld Buenode Mesquita)模型。它預測的內容是,一旦戰(zhàn)爭爆發(fā)國家會怎樣選擇陣營。地形理論認為聯(lián)盟行為只針對行動的國家本身,而與此不同的是,阿爾特菲爾德比爾諾·德梅斯奎塔模型中聯(lián)盟行為影響的是國家的效用,其對于戰(zhàn)時聯(lián)盟格局的預測以這些聯(lián)盟的狀態(tài)為基礎。在預測戰(zhàn)時聯(lián)盟格局的因果鏈條中,地形理論使用的數(shù)據(jù)(如宗教、意識形態(tài)差異等)比起聯(lián)盟類型數(shù)據(jù)來,層次要更加深入一些。而且,阿爾特菲爾德比爾諾·德梅斯奎塔模型只能預測戰(zhàn)爭爆發(fā)后事件(比如說,這樣就避免了會把德國和波蘭判定為對立方),而地形理論使用的是戰(zhàn)爭爆發(fā)前、甚至是數(shù)年前的數(shù)據(jù)。二者之間的另一個不同之處在于,阿爾特菲爾德比爾諾·德梅斯奎塔模型僅對戰(zhàn)爭爆發(fā)后兩個月內參戰(zhàn)的國家作出預測,而地形理論會預測所有的民主政體的參與國的行為。阿爾特菲爾德比爾諾·德梅斯奎塔模型的一個主要局限性在于,它在做出任何預測之前都需要關于實際的戰(zhàn)時聯(lián)盟狀態(tài)的信息,因為它要用這些信息來估計預期效用方程中各個要素的相對影響。但另一方面,該模型容許中立方的存在,而且只要稍加改動就可以適用于長時段(1816—1965)的戰(zhàn)爭中的相應預測。從結果來看,阿爾特菲爾德比爾諾·德梅斯奎塔模型沒有預測到英國和法國會參戰(zhàn)反對德國,而是認為二者都會保持中立。地形理論則準確地估計到了英國和法國的舉動,對那些前面幾年都沒有參戰(zhàn)的國家的決策也有正確的預測。 現(xiàn)在我們已經看到,地形理論成功地預測了所有大國和幾乎所有中小國家的戰(zhàn)時聯(lián)盟抉擇,接下來要做的,就是把該理論進一步應用到1990年歐洲變動的局勢中去,預測一下當蘇聯(lián)終止其強加在東歐國家身上的控制后,事態(tài)會有怎么樣的變化。在這項分析里,考察的對象是1989年身為北約或華約成員的19個歐洲國家;該分析已包含了德國統(tǒng)一的影響,但不考慮接下來的蘇聯(lián)解體事件。這里采用的規(guī)模指標和前面的分析一樣,但對傾向指標的運用有兩點調整。第一,因為實質上,幾乎所有的歐洲政府都是或希望自己是市場導向的民主政體,這里就不再把意識形態(tài)算作影響傾向的因素之一。第二,引入經濟關系作為影響傾向的因素,這可以用在歐洲經濟共同體中的雙邊關系來衡量。從1989年(并非最優(yōu))的東西聯(lián)盟出發(fā),地形理論給出了一個唯一的預測:蘇聯(lián)會被除保加利亞以外的所有前盟友拋棄。不久之后,蘇聯(lián)解體前的事實證明這確實是正確的。1991年,波蘭、捷克斯洛伐克和匈牙利向北約提出希望建立正式關系,北約則邀請它們加入了新的北大西洋合作理事會。這里只有對羅馬尼亞的預測失算了。(這么多國家中只有一個預測錯誤的概率已經小于1/1000。)從規(guī)模上講,預測結果已經把該系統(tǒng)中國家實力總和的97%包含進去了?偠灾,地形理論準確地預測到:華約的解體會使得絕大部分原蘇聯(lián)盟友轉向與西方國家結盟,而北約成員沒有哪個會改變陣營。一個適用于20世紀30年代的理論放到90年代竟同樣有效,這真是令人難以置信。 ……
你還可能感興趣
我要評論
|