首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小K算法

    囚徒困境

    话说很久以前,一个普通家庭的两兄弟,从小天资聪颖,智商超群,顺利考上了985,成为了人们口中的“别人家的孩子”。 大学生活简直狂拽酷炫吊炸天,某个机遇接触到了“PUA”,从此一发不可收拾,“推拉”,“kino”,“dhv”各种技巧炉火纯青。《高数》、《线代》、《概率论》再也不香了。 毕业了自然没有找到好工作,要是关注了我的公众号,何至于此啊,年青人“耗子尾汁”。 无奈之际这两兄弟开始凭借自己的智商,盗窃金库,从此live happily ever after(永远幸福的生活下去)。

    80550发布于 2021-05-31
  • 来自专栏Crossin的编程教室

    囚徒问题解答

    前天提出了一个关于囚犯排队报数,谁能留到最后的问题: 一道囚徒问题 有人看出来,这是“约瑟夫环”问题的改编版,在网上可以搜到原版的问题,和很多种解法。

    74190发布于 2018-04-17
  • 来自专栏测试技术分享

    开发和测试的囚徒困境

    一、测试与开发之间的困境要说起测试人员和开发人员之间的博弈,有一个特别具有代表性的例子—囚徒困境。此故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同房间里审讯。 于是,每个囚徒都面临两种选择:认罪或沉默。从自身利益考虑,认罪比沉默的好。但就如下图所示,两个人互相出卖,他们的结果就是一起服刑5年。 看完这个案例有没有觉得测试与开发之间的关系很像上图的囚徒困境呢?在整个项目中,开发和测试的关系其实不是对立的,测试和开发是一个团队,都朝着统一的目标:让软件更完美而努力。 三、解决办法那么如何打破开发与测试之间的囚徒困境、避免无谓的争吵呢,下面结合自身的工作经历给出几点建议:与开发约定统一的项目流程及规范,比如目前工作中使用的奇效项目管理平台,就涵盖了需求单、提测单、bug 打破囚徒之境,“没有自我,只有大道”的原则在项目工作中同样适用,携手前进吧!

    51820编辑于 2022-06-15
  • 来自专栏程序员小灰

    漫画:什么是囚徒困境?

    囚徒困境讲的是一件怎样的事情呢? 话说某一天,警察抓到了嫌疑犯小A和小B,虽然明知道他们肯定是罪犯,却没有决定性的证据。 ? 综合起来,两名囚徒决策和结果之间的关系如图所示: ? ? ? ? 从嫌疑犯小A的视角,我们来具体分析一下: 面对审讯,小A都有什么样的决策选择呢?显然只有两种选择,一种是招供,一种是抵赖。 ? 换句话说,只要两名囚徒都是自私且理性的,那么双方都会同时选择招供,结果就是双方各判5年。 上面所描述的场景就是博弈论当中的经典案例:囚徒困境。

    71530发布于 2020-04-22
  • 来自专栏思考是一种快乐

    囚徒困境python框架Axelrod小试

    git库地址:https://github.com/Axelrod-Python/Axelrod

    73610发布于 2019-09-23
  • 来自专栏Crossin的编程教室

    【每周一坑】囚徒困境

    本周的题目非常有意思,取于大名鼎鼎的 囚徒困境 。 首先来看背景资料: “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。 知乎话题-囚徒困境: https://www.zhihu.com/topic/19597612/top-answers 今天我们要挖的坑是多重囚徒困境,求进行 N 次博弈下,使用不同的策略,囚犯各自的获刑年限

    1.3K80发布于 2018-04-17
  • 来自专栏NewBeeNLP

    当LLM面对囚徒困境,阁下又该如何应对?

    博弈游戏简介 囚徒困境Prisoner's Dilemma 囚徒困境非常经典,游戏中,会有两名被捕的囚徒面临 合作 和 背叛 之间的选择。如果两名囚徒都选择合作,他们会得到较轻的刑罚。 囚徒的喜悦Prisoner's Delight 囚徒的喜悦是囚徒困境的一个变种,它引入了对他人行为的 惩罚 和 奖励 机制。在传统的囚徒困境中,囚徒面临合作和背叛的选择,他们的目标是最大化自己的回报。 而在囚徒的喜悦中,囚徒除了选择合作和背叛外,还可以选择惩罚或奖励对方。 简单解释一下,囚徒的喜悦引入了一个额外的选项,即囚徒可以选择 付出一些代价来惩罚对方 ,或者选择 为对方提供一些奖励 。 这意味着囚徒可以对对方的行为作出积极的反应。打个比方,如果囚徒A选择合作而囚徒B选择背叛,合作的囚徒A可以通过惩罚背叛者囚徒B来减少其回报,或者通过奖励背叛者B来增加其回报。 在相反的极端是囚徒困境,在囚徒困境中,选择背叛始终是最优的。 在这里,作者介绍了一个重要的术语:在囚徒困境和囚徒的喜悦中,只有一种行动是合理的。

    49010编辑于 2024-03-18
  • 来自专栏飞总聊IT

    囚徒困境下的996码农们

    囚徒困境有很多个版本,我们来看一个比较经典的版本: 两个囚徒A和B被隔离审讯。如果A和B彼此背叛,都坦白罪行,都会被判刑15年。 在囚徒困境下,人类作为动物的丑陋一面被展露无遗。不要去否认人性本身的丑恶。设身处地,我们每个人陷入到囚徒困境的时候,表现都不见得会比这两个囚徒好多少。 囚徒困境的博弈论条件成立,数学语言描述我就不展开了。用大俗话来说,是有两个基本的条件。第一个条件是一个群体合作的总报酬,是低于背叛的诱惑的。在囚徒困境里。 以囚徒为例子。受骗付出的代价是被枪毙,生命的代价。而背叛的惩罚,就只是15年入狱。 这就是从囚徒困境看996的结论。 那么问题在哪里。这个囚徒困境里,除了有囚徒,还有制定规则让囚徒去选择的人。囚徒只有在既定规则下的选择权,资本家们却有制定规矩本身的权力。

    61020发布于 2019-05-06
  • 来自专栏Python项目实战

    区块链社交革命:从数据囚徒到数字公民的进化之路

    区块链社交革命:从数据囚徒到数字公民的进化之路(本文共1520字,阅读约需5分钟) 当你在朋友圈分享旅行照片时,是否想过这些数据正在成为社交平台的"数字石油"? 这不是科幻电影,而是正在发生的数字平权运动——在这里,我们不再是数据的囚徒,而是自己数字王国的君主。

    46510编辑于 2025-02-18
  • 来自专栏深度学习与python

    移动开发界囚徒现身说法,审查困境与控制权探讨

    用现实生活中的真实案例,聊聊 Android(也包括 iOS)应用开发的变革节奏有多么迅猛。

    89910编辑于 2023-12-12
  • 来自专栏大数据文摘

    智能体也“囚徒困境”?DeepMind设置强迫机制要求AI合作

    (一个极简例子是“囚徒困境”) 零和博弈引入了合作后事情变得很复杂。紧急情况下,团队必须内部协调才能有效地在游戏中竞争。

    61020发布于 2020-03-18
  • 来自专栏ATYUN订阅号

    【深度学习】遗憾算法系列2:囚徒困境与纳什均衡

    囚徒困境是一个有趣而简单的测试, 它已经成为博弈论和纳什均衡的代名词。我们想测试遗憾匹配和另一个强化学习智能体在囚徒困境下如何表现,并说明这些测试在AI研究中的价值。 针对不熟悉囚徒的人, 下面我会详细的介绍。 囚徒困境 一天, 警察逮住了两个在城市两边贩卖违禁物品的人。他们逮捕了一个叫戴夫的男人,他因现行的贩毒行为而被逮捕。 现在通过上述事例,详细讲述了囚徒困境。这笔交易可以在下面的收益表中看到。 ? 囚徒困境的回报表 如右下角所示,从整体来看双方都否认是最佳选择。这一选择是双方共同犯下最小的相互监禁刑罚的理性选择。 以上是QRL网络1000次迭代的囚徒困境实验,显示出强烈的倾向于告密。 那么纳什均衡是什么呢? 例如, 在双人游戏中, 比如囚徒困境,纳什均衡是一个结果, 二号玩家的策略是一号玩家策略最好的回应,同时一号玩家的策略是二号玩家策略最好的回应。

    1.8K50发布于 2018-03-05
  • 来自专栏量子位

    清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

    比如“囚徒困境”: 狱警向两个嫌疑人agent提出一个两难挑战,让他们自己决定是合作互惠还是背叛。 除了开头展示的“囚徒困境”、NLP课堂、宝可梦游戏,还有软件设计场景(1个写代码的agent、1个测试agent、1个审查agent)、数据库管理场景和文本评估场景。

    46920编辑于 2023-09-19
  • 来自专栏AI科技评论

    业界 | 谷歌“邪恶”实验:囚徒困境下的 AI,会选择背叛还是合作?

    实验中的两款游戏,都是在博弈论中囚徒困境的理论基础上开发的。 所谓的囚徒困境是两个被捕的囚徒之间的一种特殊博弈,两个共谋犯罪的人被关入监狱,不能互相沟通情况。 由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了为什么在合作对双方都有利时,保持合作也是困难的。

    1.2K70发布于 2018-03-12
  • 来自专栏绿巨人专栏

    读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉

    本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作。 让我们回忆一下囚徒困境。 囚徒困境的均衡是双方都告密。 在有限多阶段的囚徒困境中的均衡仍然是双方都告密。 在无限多阶段的囚徒困境中的均衡是双方合作沉默。 本章给出了一个囚徒困境的例子,在这个例子中,存在一个不完整信息,就是玩家1有两种类型: 1) 标准策略类型; 2) grim-trigger 策略类型。 结论 17.2 在3阶段的这个囚徒困境博弈中,玩家1和玩家2在第一阶段都会选择合作。 推论 17.1 在T阶段的这个囚徒困境博弈中,T是一个大的值。

    949100发布于 2018-05-18
  • 来自专栏光城(guangcity)

    优秀的你,正在拼搏没?

    2.基本思想 囚徒困境 1950 年,由就职于兰德公司的梅里尔 · 弗勒德和梅尔文 · 德雷希尔拟定出相关困境的理论,后来由顾问艾伯特 · 塔克以囚徒方式阐述,并命名为 “囚徒困境”。 经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。 纳什均衡与帕累托最优 如同博弈论的其他例证(详细了解统计学习),囚徒困境假定每个参与者(即 “囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。 那么囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、我背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

    51130发布于 2019-09-20
  • 来自专栏小L的魔法馆

    博弈论笔记--01--五个入门结论

    所以可以下定义:我选择α的策略收益大于选择β的策略 3.Game Two–严格劣势策略 囚徒困境:(存在严格劣势策略) • 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释 用表格概述如下: 甲/乙 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者 (即“囚徒”)都是利己(绝对理性)的,即都寻求最大自身利益,而不关心另一参与者的利益。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 试设想困境中两名理性囚徒会如何作出选择: • 若对方沉默、背叛会让我获释,所以会选择背叛。 • 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

    66030发布于 2019-02-20
  • 来自专栏cwl_Java

    软考分类精讲-数学与经济管理

    图论应用—最短路径 图论应用—网络与最大流量 图论应用—网络与最大流量 运筹方法 关键路径法 线性规划 动态规划 预测决策 运筹方法—预测-博弈论 囚徒困境(Prisoner’ s dilemma) 这里,两个囚徒就是两个局 中人不同策略组合的收益,第一个数字是囚徒A的收益,第二个数字是囚徒B的收益。这种有限对策(局 中人是有限个,每个局中人的策略数也是有限的)往往用矩阵形式表示。

    56810发布于 2019-10-26
  • 来自专栏往期博文

    通俗理解博弈论相关术语

    囚徒困境 囚徒困境是博弈论中最经典的例子: 两个共谋犯罪的人被关入监狱,不能互相沟通情况。 回到上面的囚徒困境的例子,该例子存在一个纳什均衡:(D,D)(两个人都选择告发) 先看横行: 假设第一个人选择D(告发),那么第二个人只能在蓝色方框中进行选择,对他来说只有两个选择,选择告发D,那么收益 启示: 两人囚徒都选择告发,集体利益不如都选择不告发更好,然而,为了让自己的利益尽可能不受损,它们仍然选择告发。这就是博弈的威力——猜疑!对于不信任的对方,自己采取的策略往往是最保险的。 典型例子:零和博弈、负和博弈、囚徒博弈 完全信息博弈 指每一参与者都拥有所有其他参与者的特征、 策略及收益函数等方面的准确信息的博弈。 典型例子:囚徒博弈 动态博弈 指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。

    1.1K20编辑于 2022-06-14
  • 来自专栏绿巨人专栏

    博弈论(Game Theory) - 01 - 前传之占优战略均衡

    囚徒困境(prisoner's dilemma)和占优战略均衡 囚徒困境 经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。 如果你是其中一个囚徒,你该怎么办?

    89680发布于 2018-05-17
领券