進化對策論研究論文
時間:2022-11-13 10:03:00
導(dǎo)語:進化對策論研究論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
對于經(jīng)濟學(xué)家而言,非合作對策論又稱非合作博弈論,是用來分析和研究經(jīng)濟問題的極有價值的工具,因為它提供了建立經(jīng)濟行為人策略相互作用的分析語言,而且它還能導(dǎo)致人們直觀的洞察力由簡單內(nèi)容轉(zhuǎn)向更復(fù)雜的內(nèi)容上來。當(dāng)然,相當(dāng)多的觀點是憑借納什均衡概念的運用而得到的。這種深受人們喜歡的博弈理論思想日益增長促使人們對另一種事實不斷增長的認識和思索,均衡分析在什么時候以及為什么是合適的?對這個問題的解答不是一個簡單而容易回答的??上У氖牵┺恼摰睦碚摵头治龇椒ㄟ€沒有提出對納什均衡概念之外的可供選擇的內(nèi)容。
然而,直到最近10多年來,在均衡選擇方面才取得進展,這些進展提出當(dāng)存在多個均衡時,應(yīng)該怎樣去做。
一、納什均衡
納什,在1950年就已經(jīng)對納什均衡給出兩種解釋。第一種是群體作用的解釋。此種解釋假設(shè),在博弈中存在對每個參與者又稱局中人(player)起作用的參與者群體。參與者不斷地積累各種純策略中的令人注意的經(jīng)驗信息,如果此博弈穩(wěn)定下來,那么這種均衡必是納什均衡。然而。Shapley在1964年證明,如果博弈沒有穩(wěn)定下來,那么必然存在一種策略選擇的有限循環(huán)。第二種解釋的觀點是把均衡看成一個“自動實施協(xié)議”或者是理性的預(yù)測。如果基于理性的預(yù)測是唯一的,那么博弈均衡確實得以存在,這時倘若均衡是眾所周知的,它必是納什均衡。納什本人對此做了闡述,這是“一種十分強的理性化和理想化的解釋”。這對闡述均衡而言是有效的,解決均衡選擇問題是一個基本的問題。因此,對于經(jīng)濟學(xué)家的研究目的而言,與均衡選擇相關(guān)的問題是必須加以分析和深入探討。
對納什均衡的第三種解釋,是由MaynardSmith和Price在1973年首次提出的,它源于生物學(xué)領(lǐng)域的研究。在這種解釋中完全不存在有意識的選擇:參與者預(yù)先選取某一種策略,而且更為成功的策略生存下來;如果種群(population在生物學(xué)上稱為種群,在經(jīng)濟學(xué)中我們將其稱為群體更好)達到一種穩(wěn)定狀態(tài),那么所有策略必是等價的,因此,這種狀態(tài)必是納什均衡。這種生物學(xué)上的方法,其優(yōu)點是它不僅具體指出穩(wěn)定的結(jié)果,而且它還靠可能達成的一些結(jié)果來給出一種顯示性的過程。
當(dāng)然,經(jīng)濟學(xué)家清楚地意識到將涉及到的生物學(xué)領(lǐng)域中的思想和方法應(yīng)用到經(jīng)濟學(xué)領(lǐng)域中的疑問和困難,比如,像生物學(xué)中的“復(fù)制方程”擴展到經(jīng)濟學(xué)領(lǐng)域中的內(nèi)容和意義是什么,至今還在探索中。
二、進化思想在經(jīng)濟學(xué)中應(yīng)用的回顧
對經(jīng)濟學(xué)給出進化的解釋不是一種新的手法。實際上,進化解釋在社會科學(xué)中是先于達爾文(Darwin)而出現(xiàn)。例如,亞當(dāng)·斯密(AdamSmith)曾說:“帶來許多利益的勞動分工,原本不是人類智能的結(jié)果,雖然人類智能預(yù)見到勞動分工產(chǎn)生普遍富裕,并想利用它來實現(xiàn)普遍富裕。盡管在人類本能里沒有意識到這樣廣泛效用中的一種互通有無、物物交換,以及相互之間交易的傾向,此傾向很緩慢并且漸進產(chǎn)生結(jié)果,但是勞動分工是必須的?!?/p>
進化思想也能夠在馬爾薩斯(Malthus)、馬歇爾(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所寫的著作中找到。關(guān)于進化經(jīng)濟學(xué),這是一個單獨的學(xué)科領(lǐng)域,經(jīng)常與熊彼特的工作相聯(lián)系。Robson在2001年系統(tǒng)地給出了經(jīng)濟行為的生物學(xué)方面的基本解釋。
進化經(jīng)濟學(xué)與進化對策論至今是完全相互獨立地發(fā)展起來的。在經(jīng)濟學(xué)的理論研究中,理性人的偏好通常是固定的。然而,對于理性人的偏好變化或者進化選擇,經(jīng)濟學(xué)家對此也進行了研究,特別是利他主義的生存價值以及風(fēng)險態(tài)度等。然而,我們這里的進化對策論是將偏好作為固定的和已知的。
關(guān)于市場生存進化方面的研究和探討,開始于Winter在1964年的文章“經(jīng)濟的‘自然選擇’與廠商理論”,接下來Winter在1971年發(fā)表了“滿足、選擇與改革殘余物”,Nelson和Winter在1982年出版的著作《經(jīng)濟變遷的演化理論》(有中文版),是這一領(lǐng)域中出現(xiàn)的最為重要的文獻。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等學(xué)者在此領(lǐng)域進行探索和研究。雖然這個論題與進化對策論緊密相聯(lián)系,但是,目前這兩種文獻在方法論上相距甚遠。
三、進化對策論的基本原理與結(jié)論
最近10多年里,不像對策論的傳統(tǒng)分析方法那樣——考慮有限理性的經(jīng)濟行為人以及在嚴(yán)格的認知局限之下必須學(xué)習(xí)執(zhí)行策略,這樣的對策論理論及其應(yīng)用有了迅速的發(fā)展。這方面的大量研究工作是在稱為進化對策論所提供的框架下進行的。正如此學(xué)科標(biāo)題所表示的,這一新學(xué)科的原理借用生物學(xué)中的進化模型所具有的與眾不同的一些特征。然而,此學(xué)科本身也發(fā)展了一些新的方法和技術(shù),特別地適合于有限理性基本假設(shè)下對社會和經(jīng)濟體制方面的分析。進化對策論在10多年里以快速的步伐取得長足的發(fā)展。
進化對策淪為人們提供一種具有廣泛適用性的工具。其潛在的應(yīng)用領(lǐng)域從進化生物學(xué)延伸到一般的社會科學(xué),特別是經(jīng)濟學(xué)中。進化理論在經(jīng)濟學(xué)中有著悠久的歷史傳統(tǒng)。直到最近,這種方法在非合作對策論框架中才得到應(yīng)用。
進化對策論是研究策略行為的穩(wěn)健性,它是針對有限理性行為人所組成的大群體中多次博弈背景下的進化力量而言的。這種新的組成部分在經(jīng)濟理論里導(dǎo)致一種新的預(yù)測方法,并且為其他社會科學(xué)開辟一條嶄新的研究途徑。
進化對策論的基本內(nèi)容:
(一)進化穩(wěn)定策略概念。進化對策論理論中,一個關(guān)鍵概念是進化穩(wěn)定策略(ESS),這一概念的提出歸功于MaynardSmith和Price在1973年的“動物沖突的邏輯”一文。此種策略在特定的意義上對進化壓力而言是穩(wěn)健的:群體執(zhí)行該種策略對執(zhí)行任何其他策略而言是非入侵的。假定一對個體是重復(fù)隨機地來自于大的群體,去參與一個對稱并有限的兩人博弈,還假定所有的個體在博弈中起初都執(zhí)行某一個純的或混合的策略x是進化穩(wěn)定的,那么對于每一個變異策略y,都存在一個正的“入侵障礙”,使得執(zhí)行變異策略y的個體群體所獲得的支付低于此障礙,從而x贏得的預(yù)期支付比執(zhí)行的y所得要高。下面的不等式對于充分小的ε>0成立,即:
u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)
其中左邊的表達式記為對于策略x而言,當(dāng)執(zhí)行相對應(yīng)策略的個體進入之后,混合群體情況的混合策略(1-ε)x+εy時的預(yù)期支付,而右邊的表達式記為對于策略y而言,其所對應(yīng)的情況的預(yù)期支付。
實際上,由上述定義知道,進化穩(wěn)定性十分有用的特性是一個策略x是進化穩(wěn)定的當(dāng)且僅當(dāng)(1)它是對自身的最佳反應(yīng);(2)它是對所有其他最佳反應(yīng)的反應(yīng),當(dāng)這些策略對其自身的反應(yīng)比較時。為了弄清楚(1)是必要的,只需充分觀察即知,否則會存在一個對x而言的最佳反應(yīng)y。在一個充分小的種群中,表現(xiàn)出的這個“變異”策略幾乎總會遇到策略x,從而會贏得比x水平高的收益。同樣,(2)是必需的,因為否則的話一定會存在一個對x而言的可供選擇的最佳反應(yīng)y,它會贏得與x遇到x的時候或者至少x遇到y(tǒng)時候的收益相同,從而y的平均水平會贏得比混合種群要高一些的收益。注意到,進化穩(wěn)定性準(zhǔn)則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩(wěn)健的。同時,人們發(fā)現(xiàn),進化穩(wěn)定性沒有處理種群中具有兩個或更多“變異”同時出現(xiàn)的情況。因而,它隱含地把變異當(dāng)成稀少事件,以致于種群有時間在另一個變異出現(xiàn)之前響應(yīng)這種狀況。
雖然,進化穩(wěn)定性準(zhǔn)則是一個生物學(xué)上的概念,但是它為各種各樣的人類行為提供一種有關(guān)的穩(wěn)健性準(zhǔn)則。這樣,進化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經(jīng)采用“固有”策略的那些個體所構(gòu)成的團體收益好。相反,采用固有策略的那些個體所構(gòu)成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉(zhuǎn)變固有策略的行為。在這種社會背景下,進化穩(wěn)定策略被人們看成是傳統(tǒng)習(xí)慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會風(fēng)氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個別的人群社會行為、習(xí)氣的變化就會被認為是“變異”。當(dāng)然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩(wěn)定策略。于是,研究人員探討各種比進化穩(wěn)定性稍弱一些的形式,以及集值形式的進化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質(zhì)上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應(yīng)是唯一的最佳反應(yīng)。
(二)復(fù)制動力學(xué)。復(fù)制動力學(xué)是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時間而演化的。復(fù)制動力學(xué)的數(shù)學(xué)公式是由Taylor和Jonker于1978年在“進化穩(wěn)定策略和對策動力學(xué)”一文中提出的。他們認為由隨機配對的個體所構(gòu)成的一個大種群執(zhí)行有限對策的兩人博弈,猶如進化穩(wěn)定性的設(shè)置一樣。然而,此處的個體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個分布x。這種狀態(tài)在數(shù)學(xué)上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學(xué)上的適合性,也就是后代的數(shù)目,同時每一個后代繼續(xù)其父母的策略,因此,采用純策略i的個體數(shù)目(在大的種群中)將以某一比率指數(shù)增長,而此等于對純策略i的預(yù)期收益u(ei,x),當(dāng)執(zhí)行著表示種群中當(dāng)前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當(dāng)與其自身博弈時的預(yù)期收益u(x,x)。這是一個單種群的對稱兩人博弈的復(fù)制動力學(xué)。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當(dāng)前種群狀態(tài)x的最佳反應(yīng)具有最高的增長率。第二最佳反應(yīng)具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產(chǎn)生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉(zhuǎn)向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉(zhuǎn)向到執(zhí)行同一個純策略上。復(fù)制動力學(xué)能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復(fù)制動力學(xué),其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學(xué)習(xí)模型與選擇動力學(xué)
人們把學(xué)習(xí)模型分成三種類型,即基于信念的學(xué)習(xí)、強化學(xué)習(xí)以及模仿學(xué)習(xí)。最近的一些研究表明,復(fù)制動力學(xué)是由后面兩類的某種模型所促成的。
1.強化學(xué)習(xí)模型
心理學(xué)上的有關(guān)個體學(xué)習(xí)文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導(dǎo)致過去好的選擇在將來最有可能重復(fù)”。當(dāng)然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學(xué)習(xí)模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運用??上?,這些模型的通常數(shù)學(xué)性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強化和復(fù)制動力學(xué)的學(xué)習(xí)”文章把Cross的Bush—Mosteller學(xué)習(xí)模型的形式與Taylor的兩種群復(fù)制動力學(xué)進行了理論上的對比研究。雖然這種學(xué)習(xí)過程在離散時間背景中是隨機的、演化的,而復(fù)制動力學(xué)在連續(xù)時間背景中是確定的、演化的。他們證明,在適當(dāng)?shù)貥?gòu)造連續(xù)時間的界限下,他們的學(xué)習(xí)過程在有限時間區(qū)間內(nèi)可通過復(fù)制動力學(xué)來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設(shè)處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y(jié)0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續(xù)時間界限,通過設(shè)n→∞和δ→0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區(qū)間上執(zhí)行,同時概率以相稱的較小數(shù)值得以適應(yīng)。他們證明,在這個界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復(fù)制動力學(xué)的初始狀態(tài)在時間0處以(x0,y0)開始,那么復(fù)制動力學(xué)會在時間t達到。在這個意義上,復(fù)制動力學(xué)在有限時間區(qū)間上近似于強化動力學(xué)(3)。
然而,這兩類模型的漸進性質(zhì)卻十分不同。例如,為了在直觀上理解這點,假設(shè)參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設(shè)參與者1在強化動力學(xué)中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設(shè)復(fù)制動力學(xué)的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復(fù)制動力學(xué)的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學(xué)的實現(xiàn)會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學(xué)的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學(xué)以概率1收斂到一個純策略組合上,而不像復(fù)制動力學(xué)那樣。
2.模仿學(xué)習(xí)模型
博弈論學(xué)者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學(xué)習(xí)的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當(dāng)前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個體實現(xiàn)的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區(qū)間上包含所有可能的收益值),那么模仿的概率對于個體的當(dāng)前策略而言,在預(yù)期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區(qū)間上的復(fù)制動力學(xué)來*近。
人們把個體策略的適應(yīng)過程作為連續(xù)時間中的一個隨機過程。假設(shè)在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發(fā)生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預(yù)期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學(xué)可以被人們推導(dǎo)出來,包括復(fù)制動力學(xué)的三種形式。特別,如果個體改變比率對其策略而言預(yù)期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數(shù)大小成比例,同時比例因素將是其預(yù)期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結(jié)果的流*近也是一個復(fù)制動力學(xué)。
Schlag在1997年分析當(dāng)個體經(jīng)常以參與者的同樣地位去模仿其他參與者個體時,個體應(yīng)該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個體想要學(xué)習(xí)規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個體應(yīng)該滿足:(1)當(dāng)改變策略時,總是通過模仿來進行;(2)永遠不向收益實現(xiàn)比其所擁有收益低的那些個體模仿;(3)向收益實現(xiàn)比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設(shè)在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執(zhí)行純策略。在每一個收益實現(xiàn)之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調(diào)查,并且比較兩種收益的實現(xiàn)。行為規(guī)則是一種函數(shù)關(guān)系,即把收益實現(xiàn)和所用策略對應(yīng)到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現(xiàn)和純策略對。特別,從較早的博弈回合中實現(xiàn)收益被忽略。此外,假設(shè)個體在所有博弈中運用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導(dǎo)致預(yù)期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規(guī)則,稱為改進。本文中的重要結(jié)果是對于所有這樣規(guī)則的刻畫。改進規(guī)則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉(zhuǎn)向第三個的策略。
行為規(guī)則稱為是占優(yōu)的改進規(guī)則,如果在某一個博弈中不存在改進規(guī)則產(chǎn)生比較高的預(yù)期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規(guī)則為占優(yōu)的改進規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個比例模仿規(guī)則是其自己的一個改進規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復(fù)制動力學(xué)的離散時間形式可以*近在任何給定有限時間范圍內(nèi)導(dǎo)出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結(jié)論
本文集中探討關(guān)于有限n人博弈的顯性動力學(xué)種群模型方向的介紹,其中個體執(zhí)行純策略。首先探討確定性選擇動力學(xué),然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結(jié)合起來。
研究確定性動力學(xué)項目性質(zhì)的一種直接方法是選取一個初始的種群狀態(tài),并且稍后可以計算。然后,人們應(yīng)該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長時期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動力學(xué)中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構(gòu)建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復(fù)制動力學(xué)的這個結(jié)果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態(tài)中的個體就好像他們預(yù)期一個特殊的納什均衡對此執(zhí)行著一個最佳反應(yīng),這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學(xué)的內(nèi)部解隨時間而收斂,那么我們看到幸存下來的策略在作為結(jié)果的混合策略組合的最佳反應(yīng)的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發(fā)生什么情況嗎?當(dāng)長時期中沒有均衡達成時,我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設(shè)是參與者不采用作為嚴(yán)格的劣(strictlydominated)純策略。這個假設(shè)要求不知道其他參與者的偏好或者行為。一個更嚴(yán)格的理性一--附有知識的---假設(shè)是參與者不采用作為迭代的嚴(yán)格的劣策略。除了回避嚴(yán)格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴(yán)格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴(yán)格劣策略或者所有的迭代的嚴(yán)格劣純策略。如果所有迭代的嚴(yán)格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設(shè)的一種進化證明,就好像此假設(shè)是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴(yán)格劣的純策略沿著關(guān)于單種群復(fù)制動力學(xué)的任何一個內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結(jié)論推廣到某一個兩種群選擇動力學(xué)的正收益子集合中的迭代的嚴(yán)格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對長時期進化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對于很小的擾動是如何反應(yīng)的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復(fù)制動力學(xué)中是弱的動態(tài)穩(wěn)定的,那么此狀態(tài)就是對自己的最佳反應(yīng),這里的狀態(tài)被認為是采用混合策略的。經(jīng)常運用的穩(wěn)定性準(zhǔn)則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進化穩(wěn)定性的靜態(tài)穩(wěn)定性準(zhǔn)則,而且復(fù)制動力學(xué)中的動態(tài)穩(wěn)定性都蘊涵著納什均衡的實施。這個結(jié)果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學(xué)上??傊瑢M化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩(wěn)定的,因此,這些進化穩(wěn)定性準(zhǔn)則是納什均衡概念的精煉。
另外,研究者在考察動力學(xué)進化穩(wěn)定性時,把隨機因素并入到進化過程的建模當(dāng)中。特別,變異過程被認為是內(nèi)在隨機的一種情況。隨機振動可以憑借穩(wěn)定性分析方法來解釋確定性選擇動力學(xué);一個穩(wěn)定的種群狀態(tài)對于種群的孤立的很小擾動而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動或者同時發(fā)生的小振動累計之后促成的大振動的穩(wěn)健性。這樣的一系列或者同時發(fā)生的連續(xù)不斷的振動會使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動不可能是統(tǒng)計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學(xué)進化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態(tài)都是相同的)。從而,導(dǎo)致人們現(xiàn)今研究的一個專題——隨機動力學(xué)穩(wěn)定性。這種研究路線的先驅(qū)者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。注意到,進化穩(wěn)定性準(zhǔn)則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩(wěn)健的。同時,人們發(fā)現(xiàn),進化穩(wěn)定性沒有處理種群中具有兩個或更多“變異”同時出現(xiàn)的情況。因而,它隱含地把變異當(dāng)成稀少事件,以致于種群有時間在另一個變異出現(xiàn)之前響應(yīng)這種狀況。
雖然,進化穩(wěn)定性準(zhǔn)則是一個生物學(xué)上的概念,但是它為各種各樣的人類行為提供一種有關(guān)的穩(wěn)健性準(zhǔn)則。這樣,進化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經(jīng)采用“固有”策略的那些個體所構(gòu)成的團體收益好。相反,采用固有策略的那些個體所構(gòu)成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉(zhuǎn)變固有策略的行為。在這種社會背景下,進化穩(wěn)定策略被人們看成是傳統(tǒng)習(xí)慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會風(fēng)氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個別的人群社會行為、習(xí)氣的變化就會被認為是“變異”。當(dāng)然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩(wěn)定策略。于是,研究人員探討各種比進化穩(wěn)定性稍弱一些的形式,以及集值形式的進化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質(zhì)上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應(yīng)是唯一的最佳反應(yīng)。
(二)復(fù)制動力學(xué)。復(fù)制動力學(xué)是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時間而演化的。復(fù)制動力學(xué)的數(shù)學(xué)公式是由Taylor和Jonker于1978年在“進化穩(wěn)定策略和對策動力學(xué)”一文中提出的。他們認為由隨機配對的個體所構(gòu)成的一個大種群執(zhí)行有限對策的兩人博弈,猶如進化穩(wěn)定性的設(shè)置一樣。然而,此處的個體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個分布x。這種狀態(tài)在數(shù)學(xué)上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學(xué)上的適合性,也就是后代的數(shù)目,同時每一個后代繼續(xù)其父母的策略,因此,采用純策略i的個體數(shù)目(在大的種群中)將以某一比率指數(shù)增長,而此等于對純策略i的預(yù)期收益u(ei,x),當(dāng)執(zhí)行著表示種群中當(dāng)前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當(dāng)與其自身博弈時的預(yù)期收益u(x,x)。這是一個單種群的對稱兩人博弈的復(fù)制動力學(xué)。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當(dāng)前種群狀態(tài)x的最佳反應(yīng)具有最高的增長率。第二最佳反應(yīng)具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產(chǎn)生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉(zhuǎn)向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉(zhuǎn)向到執(zhí)行同一個純策略上。復(fù)制動力學(xué)能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復(fù)制動力學(xué),其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學(xué)習(xí)模型與選擇動力學(xué)
人們把學(xué)習(xí)模型分成三種類型,即基于信念的學(xué)習(xí)、強化學(xué)習(xí)以及模仿學(xué)習(xí)。最近的一些研究表明,復(fù)制動力學(xué)是由后面兩類的某種模型所促成的。
1.強化學(xué)習(xí)模型
心理學(xué)上的有關(guān)個體學(xué)習(xí)文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導(dǎo)致過去好的選擇在將來最有可能重復(fù)”。當(dāng)然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學(xué)習(xí)模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運用??上?,這些模型的通常數(shù)學(xué)性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強化和復(fù)制動力學(xué)的學(xué)習(xí)”文章把Cross的Bush—Mosteller學(xué)習(xí)模型的形式與Taylor的兩種群復(fù)制動力學(xué)進行了理論上的對比研究。雖然這種學(xué)習(xí)過程在離散時間背景中是隨機的、演化的,而復(fù)制動力學(xué)在連續(xù)時間背景中是確定的、演化的。他們證明,在適當(dāng)?shù)貥?gòu)造連續(xù)時間的界限下,他們的學(xué)習(xí)過程在有限時間區(qū)間內(nèi)可通過復(fù)制動力學(xué)來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設(shè)處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y(jié)0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續(xù)時間界限,通過設(shè)n→∞和δ→0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區(qū)間上執(zhí)行,同時概率以相稱的較小數(shù)值得以適應(yīng)。他們證明,在這個界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復(fù)制動力學(xué)的初始狀態(tài)在時間0處以(x0,y0)開始,那么復(fù)制動力學(xué)會在時間t達到。在這個意義上,復(fù)制動力學(xué)在有限時間區(qū)間上近似于強化動力學(xué)(3)。
然而,這兩類模型的漸進性質(zhì)卻十分不同。例如,為了在直觀上理解這點,假設(shè)參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設(shè)參與者1在強化動力學(xué)中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設(shè)復(fù)制動力學(xué)的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復(fù)制動力學(xué)的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學(xué)的實現(xiàn)會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學(xué)的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學(xué)以概率1收斂到一個純策略組合上,而不像復(fù)制動力學(xué)那樣。
2.模仿學(xué)習(xí)模型
博弈論學(xué)者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學(xué)習(xí)的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當(dāng)前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個體實現(xiàn)的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區(qū)間上包含所有可能的收益值),那么模仿的概率對于個體的當(dāng)前策略而言,在預(yù)期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區(qū)間上的復(fù)制動力學(xué)來*近。
人們把個體策略的適應(yīng)過程作為連續(xù)時間中的一個隨機過程。假設(shè)在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發(fā)生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預(yù)期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學(xué)可以被人們推導(dǎo)出來,包括復(fù)制動力學(xué)的三種形式。特別,如果個體改變比率對其策略而言預(yù)期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數(shù)大小成比例,同時比例因素將是其預(yù)期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結(jié)果的流*近也是一個復(fù)制動力學(xué)。
Schlag在1997年分析當(dāng)個體經(jīng)常以參與者的同樣地位去模仿其他參與者個體時,個體應(yīng)該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個體想要學(xué)習(xí)規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個體應(yīng)該滿足:(1)當(dāng)改變策略時,總是通過模仿來進行;(2)永遠不向收益實現(xiàn)比其所擁有收益低的那些個體模仿;(3)向收益實現(xiàn)比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設(shè)在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執(zhí)行純策略。在每一個收益實現(xiàn)之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調(diào)查,并且比較兩種收益的實現(xiàn)。行為規(guī)則是一種函數(shù)關(guān)系,即把收益實現(xiàn)和所用策略對應(yīng)到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現(xiàn)和純策略對。特別,從較早的博弈回合中實現(xiàn)收益被忽略。此外,假設(shè)個體在所有博弈中運用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導(dǎo)致預(yù)期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規(guī)則,稱為改進。本文中的重要結(jié)果是對于所有這樣規(guī)則的刻畫。改進規(guī)則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉(zhuǎn)向第三個的策略。
行為規(guī)則稱為是占優(yōu)的改進規(guī)則,如果在某一個博弈中不存在改進規(guī)則產(chǎn)生比較高的預(yù)期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規(guī)則為占優(yōu)的改進規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個比例模仿規(guī)則是其自己的一個改進規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復(fù)制動力學(xué)的離散時間形式可以*近在任何給定有限時間范圍內(nèi)導(dǎo)出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結(jié)論
本文集中探討關(guān)于有限n人博弈的顯性動力學(xué)種群模型方向的介紹,其中個體執(zhí)行純策略。首先探討確定性選擇動力學(xué),然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結(jié)合起來。
研究確定性動力學(xué)項目性質(zhì)的一種直接方法是選取一個初始的種群狀態(tài),并且稍后可以計算。然后,人們應(yīng)該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長時期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動力學(xué)中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構(gòu)建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復(fù)制動力學(xué)的這個結(jié)果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態(tài)中的個體就好像他們預(yù)期一個特殊的納什均衡對此執(zhí)行著一個最佳反應(yīng),這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學(xué)的內(nèi)部解隨時間而收斂,那么我們看到幸存下來的策略在作為結(jié)果的混合策略組合的最佳反應(yīng)的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發(fā)生什么情況嗎?當(dāng)長時期中沒有均衡達成時,我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設(shè)是參與者不采用作為嚴(yán)格的劣(strictlydominated)純策略。這個假設(shè)要求不知道其他參與者的偏好或者行為。一個更嚴(yán)格的理性一--附有知識的---假設(shè)是參與者不采用作為迭代的嚴(yán)格的劣策略。除了回避嚴(yán)格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴(yán)格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴(yán)格劣策略或者所有的迭代的嚴(yán)格劣純策略。如果所有迭代的嚴(yán)格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設(shè)的一種進化證明,就好像此假設(shè)是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴(yán)格劣的純策略沿著關(guān)于單種群復(fù)制動力學(xué)的任何一個內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結(jié)論推廣到某一個兩種群選擇動力學(xué)的正收益子集合中的迭代的嚴(yán)格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對長時期進化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對于很小的擾動是如何反應(yīng)的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復(fù)制動力學(xué)中是弱的動態(tài)穩(wěn)定的,那么此狀態(tài)就是對自己的最佳反應(yīng),這里的狀態(tài)被認為是采用混合策略的。經(jīng)常運用的穩(wěn)定性準(zhǔn)則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進化穩(wěn)定性的靜態(tài)穩(wěn)定性準(zhǔn)則,而且復(fù)制動力學(xué)中的動態(tài)穩(wěn)定性都蘊涵著納什均衡的實施。這個結(jié)果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學(xué)上??傊?,對進化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩(wěn)定的,因此,這些進化穩(wěn)定性準(zhǔn)則是納什均衡概念的精煉。
另外,研究者在考察動力學(xué)進化穩(wěn)定性時,把隨機因素并入到進化過程的建模當(dāng)中。特別,變異過程被認為是內(nèi)在隨機的一種情況。隨機振動可以憑借穩(wěn)定性分析方法來解釋確定性選擇動力學(xué);一個穩(wěn)定的種群狀態(tài)對于種群的孤立的很小擾動而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動或者同時發(fā)生的小振動累計之后促成的大振動的穩(wěn)健性。這樣的一系列或者同時發(fā)生的連續(xù)不斷的振動會使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動不可能是統(tǒng)計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學(xué)進化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態(tài)都是相同的)。從而,導(dǎo)致人們現(xiàn)今研究的一個專題——隨機動力學(xué)穩(wěn)定性。這種研究路線的先驅(qū)者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。四、進化對策論在經(jīng)濟學(xué)中的應(yīng)用
進化對策論的產(chǎn)生、發(fā)展在本質(zhì)上就是起因于對策論中關(guān)于理性行為人的假設(shè)與經(jīng)濟應(yīng)用中行為人“試驗——失誤”(即試錯法)學(xué)習(xí)過程相偏離的事實而引發(fā)的。從上述的闡述中,我們可以看到,進化對策論在經(jīng)濟學(xué)里的應(yīng)用前景是十分廣闊的和吸引人的。
最近,Routledge探討了金融市場上個體行為人是如何通過適應(yīng)性或者進化學(xué)習(xí)來發(fā)現(xiàn)內(nèi)生變化并運用這種內(nèi)生關(guān)系的一種學(xué)習(xí)模型。他通過對來自于模仿過程和經(jīng)驗過程來對個體的投資行為建模,而不是運用傳統(tǒng)上的顯性最優(yōu)化方法放松關(guān)于知識和理性的假設(shè)。Routledge運用Grossman和Stiglitz的1980年發(fā)表的經(jīng)濟模型的形式。Grossman和Stiglitz(GS)模型提供了考察適應(yīng)學(xué)習(xí)過程的一種良好的框架,因為它是獲得內(nèi)生信息的標(biāo)準(zhǔn)模型,這點已經(jīng)被后來的其他許多關(guān)于學(xué)習(xí)方面的模型都是基于GS而提出的事實所證明。
如果假設(shè)交易者能夠觀察到他們自己的適應(yīng)度和其他行為人的行為,那么模仿是如何發(fā)生的許多特殊細節(jié)就顯得不重要了。Routledge的研究結(jié)果表明:首先,作為單調(diào)選擇動力學(xué)的適應(yīng)學(xué)習(xí)會促成GS均衡;其次,由單凋適應(yīng)學(xué)習(xí)驅(qū)使的模仿的穩(wěn)健性可從隨機實驗中來獲得噪聲(noise)來研究。他發(fā)現(xiàn),適應(yīng)學(xué)習(xí)是缺少穩(wěn)健性的。特別,他運用Binmore和Samuelson(1999)的技術(shù)來對模仿和經(jīng)驗建模。為了使帶有漂移(drift)的適應(yīng)學(xué)習(xí)產(chǎn)生GS理性預(yù)期均衡,必要的條件是在風(fēng)險資產(chǎn)供給中的噪聲與學(xué)習(xí)過程中的經(jīng)驗水平有很大的關(guān)系。
五、問題與前景
我們注意到,進化過程并不總是導(dǎo)致最優(yōu)性、均衡或者社會有效性。通過目前已取得的一些成果,我們認為下面的一些方向或許是值得學(xué)者進一步探討與研究的:
(1)引進機構(gòu),分析市場選擇機制。
(2)探討博弈中學(xué)習(xí)規(guī)則的進化穩(wěn)定性。結(jié)果,這就會導(dǎo)致?lián)碛羞m度認知能力的個體的模型。
(3)進一步探討擴展形式博弈中的進化過程。
(4)對*近理論方面的進一步探討。我們需要更多地了解確定性模型和隨機性模型之間的聯(lián)系與關(guān)系。
(5)探索、研究結(jié)構(gòu)化的穩(wěn)健預(yù)測。顯然,某種博弈的子結(jié)構(gòu),諸如在最佳反應(yīng)和弱最佳反應(yīng)的條件下所促成的純策略集合,是進化過程的穩(wěn)健吸引子(robustattractor)等。
本文概括地闡述了進化對策論中的理論內(nèi)容和一些模型,特別是博弈中有關(guān)學(xué)習(xí)模型的新近發(fā)展。通過上面的分析,我們發(fā)現(xiàn),進化對策論的發(fā)展動力來自于與其他社會學(xué)科的交叉融合,吸收其他社會科學(xué)中的有益知識。為了把有關(guān)的選擇過程、學(xué)習(xí)過程以及變異過程的類別變窄,我們需要更多地知曉個體、團體、組織、廠商以及整個社會是如何隨時間而適應(yīng)和學(xué)習(xí)的。這里的部分內(nèi)容正是實驗對策論中所要探討的,同時這也是我們應(yīng)向其他社會科學(xué)學(xué)習(xí)的領(lǐng)域。
參考文獻:
1.王忠玉:《1994年度諾貝爾經(jīng)濟學(xué)獎與對策論》,載《科學(xué)(ScientificAmerican中文版)》,1996(7),3—5頁。
2.王忠玉:《金融市場從眾行為的數(shù)理模型》,載《中國管理科學(xué)》,2000(2),50~55頁。
3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.
4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.
5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.
6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.
7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).
9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand
EconomicBehavior11,173--192.
10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial
Studies12,1165--1202.
11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in
Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).
13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).
14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof
EaonomicTheory57,392--406.
15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.
16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.
17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.
18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.
19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).
20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.
21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.
22.Weibull,J.,1995.EvolutionaryGameTheory.MITPress.
23.Vega--Redondo,F.,1995.Expectations,DriftandVolatilityinEvolutionaryGames.GamesandEconomicBehavior11,391-412.
熱門標(biāo)簽
相關(guān)文章
1生物進化