Rander(1985)对委托代理关系中的具有贴现率的重复博弈的研究也证明,在重复博弈中,只要每一参与人以其长期平均期望收益帕雷托优于单阶段的纳什均衡,则有效率的合作均衡就可以在纳什均衡中得以维持。大量的文献都证明(如Rander,1985)在长期博弈中采取“触发战略(trigger strategy)”是占优的均衡战略,该战略是说参与人起初选择合作,知道观察到一次对方的不合作行为之后,选择永远不合作。很显然,对于背叛后长期合作收入流的丧失的考虑会迫使参与人放弃背叛的念头。
但是,如果交易次数是有限的,那么合作均衡是否可以得到?早期的研究(Luce and Raifa, 1957)一直认为,在有限次重复博弈中,合作均衡是无法获得的。因为,一旦参与人预期到博弈即将结束,则会在最后一次选择背叛,但是对方会预期到其在最后一次选择背叛而选择在倒数第二期提前背叛,由此利用的所谓“逆向归纳(backward induction)” 可以证明,参与人最优的策略是选择一开始就背叛,并在接下来的每一期都选择背叛。由此结论是,在可预期的有限次重复博弈中合作均衡将无法形成。但是,Friedman(1985)证明,即使在有限次重复博弈下,满足一定的条件也可以得到合作均衡 。他认为,逆向归纳的方法只在存在唯一非合作纳什均衡的博弈中成立,而如果是多重均衡则不一定成立。如果某一均衡严格占优,则触发战略仍然是可能的 。同样的,Neyman(1985)和Zemel(1989)在扩展了参与人的规模之后证明,当参予人是有限理性的情况下,给定参与人规模的有限次机器博弈(automata)的囚徒困境中会形成合作博弈。Fudenberg和Maskin(1986)也证明,只要重复博弈的次数足够长,参与人有足够的耐心,无限次重复博弈的“无名氏定理”在不完全信息有限次重复博弈中也成立。这意味着,即使在短期交易中,满足一定的条件下交易者的相互信任的合作机制是可以成立的。
对囚徒博弈中合作均衡形成的动态考察来自Huberman 和Glance(1994),他们指出,从自利的个体出发,参与人将根据他们行为对他人的影响的预期来作出选择。他们通过计算机模拟证明,即使在一个起初非合作的群体之内,在经过一段时间的交互作用之后会逐渐出现合作特征的行为。近期的研究主要关于在双边道德风险和逆向选择情况下的合作均衡存在性问题的探讨。如,Bhaskar和van Damme(1997)建立了一个存在道德风险的双边的重复交易模型,Hörner(1999)厂商与消费者的重复博弈,双方都存在道德风险和逆向选择条件下,双方合作信用机制的形成。
4.2声誉模型 在所有关于重复博弈的论述中,声誉机制无疑是最为普遍的被讨论的,也是与我们讨论的信用问题最为密切的 。由于在完全信息条件下(即参与人“知己知彼”),任何未来的结果都被考虑到决策的公共知识中,因而合作均衡难以得到。四位家经济学家(Kreps, Milgrom, Robert and Wilson,1982; Kreps and Wilson,1982; Milgrom and Robert,1982)通过将不完全信息引入重复博弈,建立了一个声誉模型(reputation model或 KMRW定理),大大扩展了对重复博弈的合作行为的形成机制的解释。
KMRW定理是说明,在囚徒博弈中,每个参与人并不知道对方的类型,即是“理性的”还是“非理性”的 。每个参与人自己的类型是属于私人信息,而只是有一个先验的非0概率(在博弈中是可以更具对手的行为结果进行贝叶斯调整的)假定对手是何种类型 。在此条件下,对于一个重复T阶段的博弈,只要T足够大,必然存在一个T0,使得在所有不到达T0时刻的所有阶段的博弈中,参与人都选择合作 。KMRW定理的一个直观解释是(张维迎,1996),每一个参与人尽管在选择合作时可能会面临被对手出卖的风险,但是如果不合作则暴露了自己的类型,从而失去长期合作收益的可能(如果对方是合作类型的话)。因此,如果博弈重复次数足够多的话,出于对未来收益的考虑,每一个参与人都会尽量树立自己合作的良好声誉(即使本质上是非合作类型的),以获得对手同样的回报。KMRW定理的出色解释力在于,大量的事实表明,将参与人外生的假定具有合作倾向并非合理,但是大多数的合作发生于对自身利益的考虑。对于一些长期的交易关系中,交易各方都会致力于建立形象与声誉的建立和维护,这些声誉在短期看来是无论如何也不经济的,但是长期的合作收入流的补偿说明,这种声誉的建立是最优的选择。
与此同时,政治社会学家Axelrod(1980a, 1980b, 1984)采用计算机竞赛的实验方法对长期囚徒博弈导致合作均衡进行了出色的实证研究。Axelrod的研究起源于对人类个体的自利性与作为人类社会文明基础的合作现象的普遍性之间的矛盾的思考 。换句话说,在每个人都有自私动机的前提下,如何才能产生合作呢。他以著名的囚徒博弈作为研究模版,利用计算机竞赛模拟的方法,规定一个随机相遇博弈过程,每个程序都可以选择合作或者背叛。如果两个程序都合作则各得3分,如果都背叛则各得1分,如果一方背叛而另一方选择合作,则背叛方得5分而合作方得0分。每轮进行200次博弈,在总共提交的14个程序中,最后发现,一个名为“针锋相对”(tit-for-tat,也称“一报还一报”)的程序获得的分数最高(Axelrod, 1980a)。在此后的第二轮比赛中,62个来自不同国家的程序的角逐中,“针锋相对”依然稳获胜利(Axelrod, 1980b)。