囚徒的困境 指的具体问题是什么
囚徒的困境
两个嫌疑犯作案后被警察抓住,分别被关在不同的屋子里审讯。警察告诉他们:如果两人都坦白,各判8年;如果两人都抵赖,各判1年(因为证据不足);如果一人坦白,另一人抵赖,坦白的无罪释放,抵赖的判10年。试分析两人的战略。
解下表给出了囚徒困境的战略式表述:
这里,每个囚徒都有两种战略:坦白或抵赖。表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中之一个数字是之一个囚徒的支付,第二个数字是第二个囚徒的支付。
我们可以看到:(坦白,坦白)是一个占优战略均衡,就是说,不论对方如何选择,个人的更优选择是坦白。比如说,如果B抵赖,A坦白的话被放出来,而抵赖的话判1年,所以坦白比抵赖好;如果B坦白,A坦白的话判8年,抵赖的话判10年,所以坦白还是比抵赖好。这样,不论B如何选择,坦白都是A的更佳选择,即是A的占优战略。同样的,坦白也是B的占优战略。
这样,这个案例的结果就是每个人都选择坦白,各判8年。
囚徒的困境反映了一个很深刻的问题,就是个人的理性与集体理性的矛盾。如果两个人都选择抵赖,各判1年,显然比都坦白好(对犯人而言,而非对社会而言),但这作不到,因为它不满足个人的理性要求,每个人都追求效用更大,这将与集体效用更大产生矛盾
囚徒的困境怎么样
首先说一下的是,我是一名学习计算机专业的大学生。入学之后自然而然的知道了“冯·诺依曼”这个名字,可是在看这本书一半之后,才真正对冯·诺依曼这个天才敬佩不已。 这本书就单从知识角度上来说,完全称不上复杂,毕竟此书应属于入门书籍而非供专业研究。但是其中围绕[博弈论]讲述的各种人物和历史,的确十分精彩。像我这样见识不多的人,看到每隔几页就出现的新鲜的人名,对照该页注脚时都会震撼不已:这都是些怎样“犀利”的人物啊!那感觉,就好像书中提及的数学家劳尔·博特1984年回忆自己入学普林斯顿看到吉恩·勒雷、爱因斯坦、狄拉克等人的心情一样。 这些改写世界的大人物们,一同共事研究。提出新的理论,开拓新的科学领域。上世纪科学爆炸式的进展,跟这些人的贡献是密不可分的。 大量不同性格的人物刻画,大量历史背景的展示,大量学科相辅相成。看到最后,我感受到并非深奥的博弈论,而是博弈论这个理论从出生到走向成熟这个精彩的过程。
什么是囚徒困境?
一件严重的纵火案发生后,警察在现场抓到两个犯罪嫌疑人。事实上,正是他们一起放火烧了这座仓库。但是,警方没有掌握足够的证据,只得把他们隔离囚禁起来,要求他们坦白交代。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙——即与警察合作,从而背叛他的同伙;或者保持沉默——也就是与他的同伙合作,而不是与警察合作。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也很明白这一点,所以就决定对两个囚犯来点 *** :如果他们都承认纵火,每人将被判入狱3年;如果他们都不承认,每人将因为缺乏证据而都被释放:如果一个抵赖而另一个坦白并且愿意出来作证,那么抵赖的将被判入狱5年,还要对他施以罚款,而坦白者将被宽大处理——释放,同时还可以得到一笔奖金。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?
从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到更好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他根本无法相信同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会同样来这样设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服审,起码他不必服最重的刑。
一番博弈的结果就是。这两个囚犯按照自己的逻辑做出行动,双双坐牢。
上面的故事反应了人们的一种博弈心理,它在心理学上被称作“囚徒困境”,最早是由美国普林斯顿大学的数学家增克于1950年提出来的。他当时创造出这样一个故事是为了向美国斯坦福大学的一群心理学家们解释什么是博弈论。后来,“囚徒困境”演绎出许多版本,成为博弈论中最著名的案例。
“囚徒困境”告诉我们,在一个存在着相互作用的博弈中,更好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。
在大家都非常熟悉的国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中,每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
因而,如果清楚这种前景,双方勾结或合作起来,都实行比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。有人把这样一种合作的做法,叫做“双赢对局”。而这样的结果,往往双方将都是“双赢对局”的赢家。
可惜这些联盟也往往处于利益驱动的“囚徒困境”。而双赢也就成为泡影。五花八门的价格联盟总是非常短命,道理就在这里。
在囚徒困境中,双方不约而同地选择背叛而坐牢,一方面的原因是与同伙合作的惩罚远远高于所得到的报酬,另一方面也由于这是在信息不透明的情况下进行的一次性决策,不存在更多的后果或者后续的博弈。
举例来说,在公共汽车上,两个陌生人会为一个座位争吵,如果他们认识,可能就会相互谦让。在夜市地摊、车站和旅游景点等人群流动性大的地方,不但商品和服务质量最差,而且假冒伪劣横行,因为在商家和顾客之间没有后续的博弈,顾客不大可能因为饭菜可口而再次光临。既然是一锤子买卖,不赚白不赚。
也正是这种心理所驱使,如果一厢情愿地选择合作就要受到惩罚。约翰逊总统在向一群商业界头面人物说明需要大量资金同前苏联进行导弹竞赛时,曾经通过下面这个故事来说明这个道理:
1861年,一位得克萨斯州人离家前去参加南军士兵阵营。他告诉他的邻居他很快就会回来,这场战争不会费力:“因为我们能用扫帚柄揍这些北方佬。”两年后,他才重返故里,少了一条腿。
他的邻居向这位神情悲惨、衣衫褴褛的伤兵询问到底发生了什么事:“你不是说过战争不费力,你们能用扫帚柄揍这些北方佬吗?”
这位士兵回答:“我们当然能,但是麻烦在于北方佬不用扫帚打仗。”
可是在生活中的大部分情境中,人与人之间都会存在一些后续的接触和博弈。那么在这种情况下,我们又应该如何决策呢?
显然,一味地以德报怨不可取,因为这样只是将别人的人生成本转嫁到自己头上;而一味地以怨报德也不可取,因为这样将慢慢失去大多数的博弈伙伴和机会。
所以,更好的决策 *** 还是囚徒困境教给我们的:以德报德、以怨报怨的反射决策。
事实上,这也是日常生活中多数人的理性选择,也是一个很具适应性的规则。它的有效是由于其他规则预料到它的存在,并且被设计得与它很好相处。因为要和“反射决策”很好相处,就必须采取合作态度,即使那些伺机占便宜而不被惩罚的规则,也很快改变,因为任何想占“反射决策”便宜的规则最终将伤害自己。
要使这一决策方式发生作用,必须满足以下条件:
特征是显著而且容易识别的;
一旦被识别出来,就必须使对方明白会对一切背叛进行报复,并且使对方很难解脱。
数学家约翰·冯诺依曼曾说过:“在一个存在着相互作用的博弈中,更好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。”
总之,反射决策能够赢得竞赛不是靠打击对方,而是靠从对方引出使双方都有好处的行为。
囚徒的困境——与其背判是什么意思?
在囚徒困境中,选择招供,也就是背判是理性的,这一论断与我们的传统观念并不相等。如果人人都这样想问题,那么就没有诚信可言了。
出现这一问题的原因是:现实中的情况和囚徒困境并不一样,困境中的两个囚徒互不相识,被判出狱后可能老死不相往来。现实生活中却并非如此,人们都在进行着重复的博弈,就是同样结构的博弈也要重复多次,人们可能在次数不定的博弈中与其他人重复交手。
其实“善有善报”的观念并不是一种迷信思想,从另一个角度看,它是有科学依据的。
《囚徒困境》或者一些讲博弈论的电子书
我这学期上《策略博弈》的课,这是一个很好的博弈入门的课程,你可以去买《策略博弈》这本教材,人大版的(中文的),我们学的是英文原版的,但我看翻译的不错,极其推荐