囚徒困境隐含的意思

 我来答
匿名用户
2015-11-05
展开全部
本文由汪龙耀编辑,严禁转载

纳什均衡定义:

  假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己效用最大化。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡经典案例:囚徒困境

  (1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,讲到两个囚犯的故事。)

  假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。

囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

  单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

  在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

  囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

  囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

  若对方沉默、背叛会让我获释,所以会选择背叛。

  若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

  二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

  这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。

  阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。

通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。

  友善

  最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。

  报复

  但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。

  宽恕

  成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。

  不嫉妒

  最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。

注释

  注解1:获知其他人策略不被考虑的理由是:即使有人能获知他人策略,“背叛”仍然是最佳的策略,无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话,囚徒困境还是存在,永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。

  注解2:道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题:追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46--9. - 参阅 第29章 囚徒困境计算机竞赛和合作的进化。

  3. 除了解释没有小偷小摸,异想还用于解释志愿投票之类的事情(在非投票者被认为是搭便车者的地方)。可能,这还可以用来解释维基百科贡献:文本在如下的假定下被添加——如果没人贡献,相似的人也将不会去贡献(即从效果到缘由的争论)。或者,解释要依赖于可预料的未来行动(不需要神奇的联系)。为未来的交流作模型需要增加有限的维,就像在重复的囚徒困境一节中给定的。

  4. 例如参看2003年的研究贝叶“斯纳什均衡;假说的统计检验”:关于概念的讨论,和是否能运用于真实的经济或统计情形(来自特拉维夫大学)。

  5. 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名,尽管与GRIM策略相比,有较少的胜利和更多的失败。(注意,在囚徒困境锦标赛中,博弈的目标不是“赢得”比赛——通过经常背叛,这很容易就能达到。)同样需要指出的是,即使在软件策略(由南安普敦大学的小组开发)之间没有隐含结论,以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些,它在一系列竞赛中的最终结果胜过它的对手。(在任何项目中,给定的策略能稍微比以牙还牙更适应竞赛,但是以牙还牙更稳固)。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略:在任何一天,它们可能无法“赢得”一个对抗策略的特别组合。

  6. 这个争论——关于出于信任的合作的发展——出自《群众的智慧》,此书表明,长久的资本主义能够围绕教友派信徒的核心形成,这些教友派信徒们总是体面地同他们的生意合伙人交易(而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象)。这表明,和可靠的商人作交易使合作拟子(meme)传播给其他交易者,这些交易者又把它传播到更远的地方,直到高水平的合作在一般商业活动中成为有利可图的策略。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式