囚徒困境隐含的意思

 我来答

1个回答

匿名用户
2015-11-05

展开全部

本文由汪龙耀编辑，严禁转载

纳什均衡定义：

　　假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己效用最大化。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡经典案例：囚徒困境

　　（1950年，数学家塔克任斯坦福大学客座教授，在给一些心理学家作讲演时，讲到两个囚犯的故事。）

　　假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

囚徒困境（Prison Dilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

　　单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

　　在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

　　囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

　　囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

　　若对方沉默、背叛会让我获释，所以会选择背叛。

　　若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

　　二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

　　这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

　　阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。

　　友善

　　最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

　　报复

　　但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。

　　宽恕

　　成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。

　　不嫉妒

　　最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。

注释

　　注解1：获知其他人策略不被考虑的理由是：即使有人能获知他人策略，“背叛”仍然是最佳的策略，无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话，囚徒困境还是存在，永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。

　　注解2：道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题：追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46--9. - 参阅第29章囚徒困境计算机竞赛和合作的进化。

　　3. 除了解释没有小偷小摸，异想还用于解释志愿投票之类的事情（在非投票者被认为是搭便车者的地方）。可能，这还可以用来解释维基百科贡献：文本在如下的假定下被添加——如果没人贡献，相似的人也将不会去贡献（即从效果到缘由的争论）。或者，解释要依赖于可预料的未来行动（不需要神奇的联系）。为未来的交流作模型需要增加有限的维，就像在重复的囚徒困境一节中给定的。

　　4. 例如参看2003年的研究贝叶“斯纳什均衡；假说的统计检验”：关于概念的讨论，和是否能运用于真实的经济或统计情形（来自特拉维夫大学）。

　　5. 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名，尽管与GRIM策略相比，有较少的胜利和更多的失败。（注意，在囚徒困境锦标赛中，博弈的目标不是“赢得”比赛——通过经常背叛，这很容易就能达到。）同样需要指出的是，即使在软件策略（由南安普敦大学的小组开发）之间没有隐含结论，以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些，它在一系列竞赛中的最终结果胜过它的对手。（在任何项目中，给定的策略能稍微比以牙还牙更适应竞赛，但是以牙还牙更稳固）。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略：在任何一天，它们可能无法“赢得”一个对抗策略的特别组合。

　　6. 这个争论——关于出于信任的合作的发展——出自《群众的智慧》，此书表明，长久的资本主义能够围绕教友派信徒的核心形成，这些教友派信徒们总是体面地同他们的生意合伙人交易（而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象）。这表明，和可靠的商人作交易使合作拟子（meme）传播给其他交易者，这些交易者又把它传播到更远的地方，直到高水平的合作在一般商业活动中成为有利可图的策略。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

囚徒困境隐含的意思

其他类似问题

为你推荐：