话说很久以前,一个普通家庭的两兄弟,从小天资聪颖,智商超群,顺利考上了985,成为了人们口中的“别人家的孩子”。 大学生活简直狂拽酷炫吊炸天,某个机遇接触到了“PUA”,从此一发不可收拾,“推拉”,“kino”,“dhv”各种技巧炉火纯青。《高数》、《线代》、《概率论》再也不香了。 毕业了自然没有找到好工作,要是关注了我的公众号,何至于此啊,年青人“耗子尾汁”。 无奈之际这两兄弟开始凭借自己的智商,盗窃金库,从此live happily ever after(永远幸福的生活下去)。
前天提出了一个关于囚犯排队报数,谁能留到最后的问题: 一道囚徒问题 有人看出来,这是“约瑟夫环”问题的改编版,在网上可以搜到原版的问题,和很多种解法。
一、测试与开发之间的困境要说起测试人员和开发人员之间的博弈,有一个特别具有代表性的例子—囚徒困境。此故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同房间里审讯。 于是,每个囚徒都面临两种选择:认罪或沉默。从自身利益考虑,认罪比沉默的好。但就如下图所示,两个人互相出卖,他们的结果就是一起服刑5年。 看完这个案例有没有觉得测试与开发之间的关系很像上图的囚徒困境呢?在整个项目中,开发和测试的关系其实不是对立的,测试和开发是一个团队,都朝着统一的目标:让软件更完美而努力。 三、解决办法那么如何打破开发与测试之间的囚徒困境、避免无谓的争吵呢,下面结合自身的工作经历给出几点建议:与开发约定统一的项目流程及规范,比如目前工作中使用的奇效项目管理平台,就涵盖了需求单、提测单、bug 打破囚徒之境,“没有自我,只有大道”的原则在项目工作中同样适用,携手前进吧!
囚徒困境讲的是一件怎样的事情呢? 话说某一天,警察抓到了嫌疑犯小A和小B,虽然明知道他们肯定是罪犯,却没有决定性的证据。 ? 综合起来,两名囚徒决策和结果之间的关系如图所示: ? ? ? ? 从嫌疑犯小A的视角,我们来具体分析一下: 面对审讯,小A都有什么样的决策选择呢?显然只有两种选择,一种是招供,一种是抵赖。 ? 换句话说,只要两名囚徒都是自私且理性的,那么双方都会同时选择招供,结果就是双方各判5年。 上面所描述的场景就是博弈论当中的经典案例:囚徒困境。
git库地址:https://github.com/Axelrod-Python/Axelrod
本周的题目非常有意思,取于大名鼎鼎的 囚徒困境 。 Tucker)以囚徒方式阐述,并命名为“囚徒困境”。 知乎话题-囚徒困境: https://www.zhihu.com/topic/19597612/top-answers 今天我们要挖的坑是多重囚徒困境,求进行 N 次博弈下,使用不同的策略,囚犯各自的获刑年限 prisoner_delimma(6, nice, rat) (30, 0) >>> prisoner_delimma(4, rat, tit_for_tat) (6, 11) >>> prisoner_delimma(7, tit_for_tat, tit_for_tat) (7, 7) 附加题: 自定义一种策略,测试在此策略下的效果。
博弈游戏简介 囚徒困境Prisoner's Dilemma 囚徒困境非常经典,游戏中,会有两名被捕的囚徒面临 合作 和 背叛 之间的选择。如果两名囚徒都选择合作,他们会得到较轻的刑罚。 囚徒的喜悦Prisoner's Delight 囚徒的喜悦是囚徒困境的一个变种,它引入了对他人行为的 惩罚 和 奖励 机制。在传统的囚徒困境中,囚徒面临合作和背叛的选择,他们的目标是最大化自己的回报。 而在囚徒的喜悦中,囚徒除了选择合作和背叛外,还可以选择惩罚或奖励对方。 简单解释一下,囚徒的喜悦引入了一个额外的选项,即囚徒可以选择 付出一些代价来惩罚对方 ,或者选择 为对方提供一些奖励 。 这意味着囚徒可以对对方的行为作出积极的反应。打个比方,如果囚徒A选择合作而囚徒B选择背叛,合作的囚徒A可以通过惩罚背叛者囚徒B来减少其回报,或者通过奖励背叛者B来增加其回报。 在相反的极端是囚徒困境,在囚徒困境中,选择背叛始终是最优的。 在这里,作者介绍了一个重要的术语:在囚徒困境和囚徒的喜悦中,只有一种行动是合理的。
囚徒困境有很多个版本,我们来看一个比较经典的版本: 两个囚徒A和B被隔离审讯。如果A和B彼此背叛,都坦白罪行,都会被判刑15年。 在囚徒困境下,人类作为动物的丑陋一面被展露无遗。不要去否认人性本身的丑恶。设身处地,我们每个人陷入到囚徒困境的时候,表现都不见得会比这两个囚徒好多少。 囚徒困境的博弈论条件成立,数学语言描述我就不展开了。用大俗话来说,是有两个基本的条件。第一个条件是一个群体合作的总报酬,是低于背叛的诱惑的。在囚徒困境里。 以囚徒为例子。受骗付出的代价是被枪毙,生命的代价。而背叛的惩罚,就只是15年入狱。 这就是从囚徒困境看996的结论。 那么问题在哪里。这个囚徒困境里,除了有囚徒,还有制定规则让囚徒去选择的人。囚徒只有在既定规则下的选择权,资本家们却有制定规矩本身的权力。
区块链社交革命:从数据囚徒到数字公民的进化之路(本文共1520字,阅读约需5分钟) 当你在朋友圈分享旅行照片时,是否想过这些数据正在成为社交平台的"数字石油"? 这不是科幻电影,而是正在发生的数字平权运动——在这里,我们不再是数据的囚徒,而是自己数字王国的君主。
用现实生活中的真实案例,聊聊 Android(也包括 iOS)应用开发的变革节奏有多么迅猛。
(一个极简例子是“囚徒困境”) 零和博弈引入了合作后事情变得很复杂。紧急情况下,团队必须内部协调才能有效地在游戏中竞争。
囚徒困境是一个有趣而简单的测试, 它已经成为博弈论和纳什均衡的代名词。我们想测试遗憾匹配和另一个强化学习智能体在囚徒困境下如何表现,并说明这些测试在AI研究中的价值。 针对不熟悉囚徒的人, 下面我会详细的介绍。 囚徒困境 一天, 警察逮住了两个在城市两边贩卖违禁物品的人。他们逮捕了一个叫戴夫的男人,他因现行的贩毒行为而被逮捕。 现在通过上述事例,详细讲述了囚徒困境。这笔交易可以在下面的收益表中看到。 ? 囚徒困境的回报表 如右下角所示,从整体来看双方都否认是最佳选择。这一选择是双方共同犯下最小的相互监禁刑罚的理性选择。 以上是QRL网络1000次迭代的囚徒困境实验,显示出强烈的倾向于告密。 那么纳什均衡是什么呢? 例如, 在双人游戏中, 比如囚徒困境,纳什均衡是一个结果, 二号玩家的策略是一号玩家策略最好的回应,同时一号玩家的策略是二号玩家策略最好的回应。
比如“囚徒困境”: 狱警向两个嫌疑人agent提出一个两难挑战,让他们自己决定是合作互惠还是背叛。 除了开头展示的“囚徒困境”、NLP课堂、宝可梦游戏,还有软件设计场景(1个写代码的agent、1个测试agent、1个审查agent)、数据库管理场景和文本评估场景。
实验中的两款游戏,都是在博弈论中囚徒困境的理论基础上开发的。 所谓的囚徒困境是两个被捕的囚徒之间的一种特殊博弈,两个共谋犯罪的人被关入监狱,不能互相沟通情况。 由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了为什么在合作对双方都有利时,保持合作也是困难的。
博弈论又称对策论或竞赛论,在生活中比较常见,比如两人棋艺对弈、囚徒困境、警察与小偷道高一尺魔高一丈等都是它的典型例子,它是研究具有斗争或竞争性质现象的数学理论和方法,是运筹学的一个重要学科,它有比较鲜明的特点就是参加博弈的双方各自有自己的利益 则全体局势的集合S则表示成每个局中人所选策略的笛卡尔积,即 赢得函数 在任意一个可能的局势中,每个局中人i可以得到一个赢得函数 ,显然是局势 的函数,用来衡量局中人在一轮博弈中赢得的收益 e.g.: (囚徒困境 )比如有两个囚犯,如果双方都认罪,则每个人被判三年,如果双方都不认罪,则每个人判1年,若一个认罪一个不认罪,则认罪的因为坦白当堂释放,另一个判7年。 这个例子中有两个局中人,每个局中人有两种策略(认罪或者不认罪),总共四种局势(1,1),(3,3),(0,7),(7,0),括号的每一个数值代表每个人的赢得值 ? 本文主要解释博弈论中最简单的零和博弈,上述例子中的囚徒困境是典型的非零和博弈,因为两名囚徒可以合作,不是你生我死的激烈对抗型博弈 零和博弈 博弈中有两名局中人,策略集有限,且若双方的赢得是激烈对抗的,一个人赢得了某个值则另一个人就会损失某个值
本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作。 让我们回忆一下囚徒困境。 囚徒困境的均衡是双方都告密。 在有限多阶段的囚徒困境中的均衡仍然是双方都告密。 在无限多阶段的囚徒困境中的均衡是双方合作沉默。 本章给出了一个囚徒困境的例子,在这个例子中,存在一个不完整信息,就是玩家1有两种类型: 1) 标准策略类型; 2) grim-trigger 策略类型。 结论 17.2 在3阶段的这个囚徒困境博弈中,玩家1和玩家2在第一阶段都会选择合作。 推论 17.1 在T阶段的这个囚徒困境博弈中,T是一个大的值。
max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24 7、当在浏览器中输入一个url后回车,后台发生了什么 9、三个警察和三个囚徒的过河问题 三个警察和三个囚徒共同旅行。一条河挡住了去路,河边有一条船,但是每次只能载2人。 存在如下的危险:无论在河的哪边,当囚徒人数多于警察的人数时,将有警察被囚徒杀死。问题:请问如何确定渡河方案,才能保证6人安全无损的过河。 答案:第一次:两囚徒同过,回一囚徒 第二次:两囚徒同过,回一囚徒 第三次:两警察同过,回一囚徒一警察(此时对岸还剩下一囚徒一警察,是安全状态) 第四次:两警察同过,回一囚徒(此时对岸有3个警察,是安全状态 ) 第五次:两囚徒同过,回一囚徒 第六次:两囚徒同过;over 10、从300万字符串中找到最热门的10条 搜索的输入信息是一个字符串,统计300万输入信息中的最热门的前10条,我们每次输入的一个字符串为不超过
2.基本思想 囚徒困境 1950 年,由就职于兰德公司的梅里尔 · 弗勒德和梅尔文 · 德雷希尔拟定出相关困境的理论,后来由顾问艾伯特 · 塔克以囚徒方式阐述,并命名为 “囚徒困境”。 经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。 纳什均衡与帕累托最优 如同博弈论的其他例证(详细了解统计学习),囚徒困境假定每个参与者(即 “囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。 那么囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、我背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
所以可以下定义:我选择α的策略收益大于选择β的策略 3.Game Two–严格劣势策略 囚徒困境:(存在严格劣势策略) • 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释 用表格概述如下: 甲/乙 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者 (即“囚徒”)都是利己(绝对理性)的,即都寻求最大自身利益,而不关心另一参与者的利益。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 试设想困境中两名理性囚徒会如何作出选择: • 若对方沉默、背叛会让我获释,所以会选择背叛。 • 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
图论应用—最短路径 图论应用—网络与最大流量 图论应用—网络与最大流量 运筹方法 关键路径法 线性规划 动态规划 预测决策 运筹方法—预测-博弈论 囚徒困境(Prisoner’ s dilemma) 这里,两个囚徒就是两个局 中人不同策略组合的收益,第一个数字是囚徒A的收益,第二个数字是囚徒B的收益。这种有限对策(局 中人是有限个,每个局中人的策略数也是有限的)往往用矩阵形式表示。