首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小K算法

    囚徒困境

    5.原理分析 这是博弈论的典型应用场景。 博奕论: 也称对策论(Game Theory),属运筹学。 主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。

    81250发布于 2021-05-31
  • 来自专栏Crossin的编程教室

    囚徒问题解答

    前天提出了一个关于囚犯排队报数,谁能留到最后的问题: 一道囚徒问题 有人看出来,这是“约瑟夫环”问题的改编版,在网上可以搜到原版的问题,和很多种解法。 试下这段代码: lst = [1, 2, 3, 4, 5, 6] for i in lst: if i < 5: lst.remove(i) print lst 结果似乎应该是 [5, 6]? 但实际输出却是 [2, 4, 5, 6]。这是因为 for 循环中每一次执行完毕后,都会去找下一个元素,进行下一次循环。

    74890发布于 2018-04-17
  • 来自专栏测试技术分享

    开发和测试的囚徒困境

    一、测试与开发之间的困境要说起测试人员和开发人员之间的博弈,有一个特别具有代表性的例子—囚徒困境。此故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同房间里审讯。 因此警察告诉二人:“如果两人都沉默,各判刑2年;如果两人都认罪,各判刑5年;如果出卖同伴,自己获得自由,对方判刑10年。”于是,每个囚徒都面临两种选择:认罪或沉默。从自身利益考虑,认罪比沉默的好。 但就如下图所示,两个人互相出卖,他们的结果就是一起服刑5年。但如果两人从整体利益出发、为对方考虑下,两人都沉默各判刑2年,显然这个结果才是对大家最好的。 看完这个案例有没有觉得测试与开发之间的关系很像上图的囚徒困境呢?在整个项目中,开发和测试的关系其实不是对立的,测试和开发是一个团队,都朝着统一的目标:让软件更完美而努力。 打破囚徒之境,“没有自我,只有大道”的原则在项目工作中同样适用,携手前进吧!

    53320编辑于 2022-06-15
  • 来自专栏程序员小灰

    漫画:什么是囚徒困境?

    囚徒困境讲的是一件怎样的事情呢? 话说某一天,警察抓到了嫌疑犯小A和小B,虽然明知道他们肯定是罪犯,却没有决定性的证据。 ? 3.如果两个人都招供,两人各判5年。 ? ? 综合起来,两名囚徒决策和结果之间的关系如图所示: ? ? ? ? 从嫌疑犯小A的视角,我们来具体分析一下: 面对审讯,小A都有什么样的决策选择呢? 答案很明显,分别是5年、0年、10年、1年,如下图所示: ? 如果你是小A,当你无法和小B沟通的情况下,会选择坐牢5年或0年(对应着小A招供),还是会选择坐牢10年或1年(对应着小A抵赖)呢? 显然坐牢5年或0年,也就是招供的决策,具有压倒性优势! 反观小B,也一定会做出同样的选择,也就是招供。换句话说,只要两名囚徒都是自私且理性的,那么双方都会同时选择招供,结果就是双方各判5年。 上面所描述的场景就是博弈论当中的经典案例:囚徒困境。

    72830发布于 2020-04-22
  • 来自专栏思考是一种快乐

    囚徒困境python框架Axelrod小试

    git库地址:https://github.com/Axelrod-Python/Axelrod

    74210发布于 2019-09-23
  • 来自专栏Crossin的编程教室

    【每周一坑】囚徒困境

    本周的题目非常有意思,取于大名鼎鼎的 囚徒困境 。 首先来看背景资料: “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。 知乎话题-囚徒困境: https://www.zhihu.com/topic/19597612/top-answers 今天我们要挖的坑是多重囚徒困境,求进行 N 次博弈下,使用不同的策略,囚犯各自的获刑年限 strategy1, strategy2): # 你的代码 输出示例 >>> prisoner_delimma(4, nice, nice) (4, 4) >>> prisoner_delimma(5,

    1.3K80发布于 2018-04-17
  • 来自专栏NewBeeNLP

    当LLM面对囚徒困境,阁下又该如何应对?

    博弈游戏简介 囚徒困境Prisoner's Dilemma 囚徒困境非常经典,游戏中,会有两名被捕的囚徒面临 合作 和 背叛 之间的选择。如果两名囚徒都选择合作,他们会得到较轻的刑罚。 囚徒的喜悦Prisoner's Delight 囚徒的喜悦是囚徒困境的一个变种,它引入了对他人行为的 惩罚 和 奖励 机制。在传统的囚徒困境中,囚徒面临合作和背叛的选择,他们的目标是最大化自己的回报。 这意味着囚徒可以对对方的行为作出积极的反应。打个比方,如果囚徒A选择合作而囚徒B选择背叛,合作的囚徒A可以通过惩罚背叛者囚徒B来减少其回报,或者通过奖励背叛者B来增加其回报。 在每个上下文和游戏的5 * 4 = 20种可能独特组合中,作者为每个LLM运行300次初始化,然后汇总结果以进行统计分析。 在相反的极端是囚徒困境,在囚徒困境中,选择背叛始终是最优的。 在这里,作者介绍了一个重要的术语:在囚徒困境和囚徒的喜悦中,只有一种行动是合理的。

    50910编辑于 2024-03-18
  • 来自专栏飞总聊IT

    囚徒困境下的996码农们

    囚徒困境有很多个版本,我们来看一个比较经典的版本: 两个囚徒A和B被隔离审讯。如果A和B彼此背叛,都坦白罪行,都会被判刑15年。 在囚徒困境下,人类作为动物的丑陋一面被展露无遗。不要去否认人性本身的丑恶。设身处地,我们每个人陷入到囚徒困境的时候,表现都不见得会比这两个囚徒好多少。 囚徒困境的博弈论条件成立,数学语言描述我就不展开了。用大俗话来说,是有两个基本的条件。第一个条件是一个群体合作的总报酬,是低于背叛的诱惑的。在囚徒困境里。 以囚徒为例子。受骗付出的代价是被枪毙,生命的代价。而背叛的惩罚,就只是15年入狱。 这就是从囚徒困境看996的结论。 那么问题在哪里。这个囚徒困境里,除了有囚徒,还有制定规则让囚徒去选择的人。囚徒只有在既定规则下的选择权,资本家们却有制定规矩本身的权力。

    61320发布于 2019-05-06
  • 来自专栏Python项目实战

    区块链社交革命:从数据囚徒到数字公民的进化之路

    区块链社交革命:从数据囚徒到数字公民的进化之路(本文共1520字,阅读约需5分钟) 当你在朋友圈分享旅行照片时,是否想过这些数据正在成为社交平台的"数字石油"? 这不是科幻电影,而是正在发生的数字平权运动——在这里,我们不再是数据的囚徒,而是自己数字王国的君主。

    47910编辑于 2025-02-18
  • 来自专栏深度学习与python

    移动开发界囚徒现身说法,审查困境与控制权探讨

    用现实生活中的真实案例,聊聊 Android(也包括 iOS)应用开发的变革节奏有多么迅猛。

    97310编辑于 2023-12-12
  • 来自专栏大数据文摘

    智能体也“囚徒困境”?DeepMind设置强迫机制要求AI合作

    (一个极简例子是“囚徒困境”) 零和博弈引入了合作后事情变得很复杂。紧急情况下,团队必须内部协调才能有效地在游戏中竞争。

    61320发布于 2020-03-18
  • 来自专栏ATYUN订阅号

    【深度学习】遗憾算法系列2:囚徒困境与纳什均衡

    囚徒困境是一个有趣而简单的测试, 它已经成为博弈论和纳什均衡的代名词。我们想测试遗憾匹配和另一个强化学习智能体在囚徒困境下如何表现,并说明这些测试在AI研究中的价值。 针对不熟悉囚徒的人, 下面我会详细的介绍。 囚徒困境 一天, 警察逮住了两个在城市两边贩卖违禁物品的人。他们逮捕了一个叫戴夫的男人,他因现行的贩毒行为而被逮捕。 但是,如果你供认抢劫罪但另一个人没有,你只会获刑一年,另一人获刑5年。 但是如果你们都供认了,每人获刑三年。 现在通过上述事例,详细讲述了囚徒困境。这笔交易可以在下面的收益表中看到。 ? 以上是QRL网络1000次迭代的囚徒困境实验,显示出强烈的倾向于告密。 那么纳什均衡是什么呢? 在这个AI囚徒困境的背景下, 如果卢克告密, 戴夫最好的回应是告密, 因为判3年比5年好。如果卢克不告密,戴夫的最好回应是告密,因为判1年比2年好。

    1.8K50发布于 2018-03-05
  • 来自专栏量子位

    清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

    比如“囚徒困境”: 狱警向两个嫌疑人agent提出一个两难挑战,让他们自己决定是合作互惠还是背叛。 4个阶段、5大基础组件 正如AgentVerse专为大模型开发,如今人类训练智能体的效果正是在各种LLM的加持下,跟着进步了很多,比如更强的泛化能力。 方法是通过5个基础组件。 每一个组件代表的其实是一个规则,组合不同的规则就可以搭建出不同的环境,从而方便研究人员研究不同条件下智能体的行为。 具体来看,这5个组件分别是: 描述器(Describer),它为每个agent提供每次环境的描述。通过自定义该组件,你就能根据你自己的特定要求来构建环境。 除了开头展示的“囚徒困境”、NLP课堂、宝可梦游戏,还有软件设计场景(1个写代码的agent、1个测试agent、1个审查agent)、数据库管理场景和文本评估场景。

    48420编辑于 2023-09-19
  • 来自专栏AI科技评论

    业界 | 谷歌“邪恶”实验:囚徒困境下的 AI,会选择背叛还是合作?

    实验中的两款游戏,都是在博弈论中囚徒困境的理论基础上开发的。 所谓的囚徒困境是两个被捕的囚徒之间的一种特殊博弈,两个共谋犯罪的人被关入监狱,不能互相沟通情况。 由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了为什么在合作对双方都有利时,保持合作也是困难的。

    1.2K70发布于 2018-03-12
  • 来自专栏光城(guangcity)

    优秀的你,正在拼搏没?

    2.基本思想 囚徒困境 1950 年,由就职于兰德公司的梅里尔 · 弗勒德和梅尔文 · 德雷希尔拟定出相关困境的理论,后来由顾问艾伯特 · 塔克以囚徒方式阐述,并命名为 “囚徒困境”。 若二人都互相检举(互相 “背叛”),则二人同样判监 5 年。 那么囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑 5 年。 这场博弈的纳什均衡。 而这显然不是顾及团体利益的帕累托最优解决方案。 5.基本原理 生成对抗网络是一个强大的基于博弈论的生成模型学习框架。该模型由 GoodFellow 在 2014 年首次提出,结合了生成模型和对抗学习思想。

    51430发布于 2019-09-20
  • 来自专栏绿巨人专栏

    读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉

    本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作。 让我们回忆一下囚徒困境。 囚徒困境的均衡是双方都告密。 在有限多阶段的囚徒困境中的均衡仍然是双方都告密。 在无限多阶段的囚徒困境中的均衡是双方合作沉默。 本章给出了一个囚徒困境的例子,在这个例子中,存在一个不完整信息,就是玩家1有两种类型: 1) 标准策略类型; 2) grim-trigger 策略类型。 结论 17.2 在3阶段的这个囚徒困境博弈中,玩家1和玩家2在第一阶段都会选择合作。 推论 17.1 在T阶段的这个囚徒困境博弈中,T是一个大的值。

    954100发布于 2018-05-18
  • 来自专栏往期博文

    通俗理解博弈论相关术语

    囚徒困境 囚徒困境是博弈论中最经典的例子: 两个共谋犯罪的人被关入监狱,不能互相沟通情况。 -5,选择不告发,收益为-10,对它来说,选D自然是最好的选择。 先看纵列: 假设第二个人选择D(告发),那么第一个人只能在蓝色方框中进行选择,对他来说只有两个选择,选择告发D,那么收益-5,选择不告发,收益为-10,对它来说,选D自然是最好的选择。 典型例子:零和博弈、负和博弈、囚徒博弈 完全信息博弈 指每一参与者都拥有所有其他参与者的特征、 策略及收益函数等方面的准确信息的博弈。 典型例子:囚徒博弈 动态博弈 指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。

    1.1K20编辑于 2022-06-14
  • 来自专栏小L的魔法馆

    博弈论笔记--01--五个入门结论

    所以可以下定义:我选择α的策略收益大于选择β的策略 3.Game Two–严格劣势策略 囚徒困境:(存在严格劣势策略) • 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释 用表格概述如下: 甲/乙 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者 (即“囚徒”)都是利己(绝对理性)的,即都寻求最大自身利益,而不关心另一参与者的利益。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。 试设想困境中两名理性囚徒会如何作出选择: • 若对方沉默、背叛会让我获释,所以会选择背叛。 • 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

    66630发布于 2019-02-20
  • 来自专栏用户2442861的专栏

    百度最新面试题集锦

    9、三个警察和三个囚徒的过河问题   三个警察和三个囚徒共同旅行。一条河挡住了去路,河边有一条船,但是每次只能载2人。 答案:第一次:两囚徒同过,回一囚徒 第二次:两囚徒同过,回一囚徒 第三次:两警察同过,回一囚徒一警察(此时对岸还剩下一囚徒一警察,是安全状态) 第四次:两警察同过,回一囚徒(此时对岸有3个警察,是安全状态 例如:n=6,a=2,原始的串为5,3,7,6,2,4。现在被别人修改为-1,3,7,6,2,4。现在希望找到5。 例如,下标为5的元素值为3,表示将下标为5的集合合并到下标为3的集合中去。开始时将所有值都初始化为-1,表示集合间没有互相合并。 假设有一组四个点共线,那么可以组成的直线在55的基础上应该减去C(4,2)-1=5  (备注,五个点共线的可能不存在,因为,C(5,2)-1=9>7,故不可能有五条直线共线。)

    85110发布于 2018-09-14
  • 来自专栏cwl_Java

    软考分类精讲-数学与经济管理

    图论应用—最短路径 图论应用—网络与最大流量 图论应用—网络与最大流量 运筹方法 关键路径法 线性规划 动态规划 预测决策 运筹方法—预测-博弈论 囚徒困境(Prisoner’ s dilemma) 这里,两个囚徒就是两个局 中人不同策略组合的收益,第一个数字是囚徒A的收益,第二个数字是囚徒B的收益。这种有限对策(局 中人是有限个,每个局中人的策略数也是有限的)往往用矩阵形式表示。

    57010发布于 2019-10-26
领券