囚徒困境的最优策略是什么?
囚徒困境的最优策略是以牙还牙:每一次都复制对方上一步的策略。
在现实生活中,我们会遇到很多类似囚徒困境的博弈情况,以牙还牙并不是最优解,因为我们很有可能会遇到两种情况。
1、对方由于操作失误而产生背叛。
2、自己对对方操作的理解发生偏差。
基于这两种情况,宽容的以牙还牙策略是最优解,即在对方第一次背叛时我们选择宽容,第二次背叛时采用以牙还牙策略,这样就避免了因上面说的两种失误而产生的局势错判,充分保证了游戏的持续进行。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。
理论起源
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。
于是,每个囚徒都面临两种选择:坦白或抵赖。
然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判十年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。
结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。