犯罪团伙为何一拍两散 ->立刻明白囚徒困境与nash均衡

x
用微信扫描二维码
分享至好友和朋友圈

  

  (图片来自网络,侵删)

  近日穷凶极饿的犯罪团伙甲乙落入法网。甲乙偷取了名字就叫不知名地区的大量奶油蛋糕,不过甲乙两人平时小心谨慎从没留下把柄。他们知道,只要坚持不招供,警察也拿他们没办法,顶多以“长相丑陋,吓哭小朋友罪”各罚他们100块;要是两个人都招供了,那可是两个人都要罚500块的大麻烦。

  名字就叫不知名地区的警察想让他们主动招供,于是决定对他们分开审问,并告诉他们一个内部消息:要是你们其中有一个人招了,他可以不用付出罚款;而没有招供的人,需要承担800块的赔偿!

  这个团伙的两个人各自陷入纠结,到底招供?--还是不招呢?

  甲胖子先从大局考虑,想来想去还是觉得坚持抗供好,毕竟加起来只要付200块。可是,隔壁的瘦兄弟能扛住诱惑嘛?要是瘦子招了,他可就一身轻松,倒霉事情全落到我胖子一个人身上,这可不好!兄弟就该有难同当,要不招了算了?反正要是瘦子没招,我胖子更快活。

  乙瘦子是个理性的人,他认真分析了一波。要是隔壁的胖兄弟招了,那我要是不招供就要付800块罚款,我要是招了就只要付500,这样看来,他要是招供,我也招供才好;要是胖子没招呢,那我要是招了那可一分钱不用掏,要是也没招还得掏个100块,那我最好也招个供。成了,招吧!

  名字就叫不知名地区的警察成功让两个人都招了供,并得到了总共1000块的罚金!

  而穷凶极饿的犯罪团伙甲乙互相指责对方背叛了自己,一拍两散。

  名字就叫不知名地区的蛋糕安全重新有了保障!

  可是我们再来分析这个问题,明明两个人只要合作就可以得到最好结果,但他们却纷纷选择背叛,难道是犯罪团伙道德水平就是低的原因吗?可能不只是这样,这就是囚徒困境。

  

  博弈双方不断根据自己的收益偏好和对方的行动改变自己的行动,最终到到达某个不动点,双方都不能通过仅改变自己一个人的行动而提高自己的收益,这个不动点就是大名鼎鼎nash均衡解。

  甲思考的过程(不招供,不招供)->(不招供,招供)->(招供,招供)被称为稳定路径(但这个定义一般来说并不重要)

  乙思考的过程是找到了他自己的优势对策,即不管对方选择什么行动,招供总比不招供代价小。

  而都不招供,这个总体代价最小的解被称为,帕累托最优。

  ---------------------------------------------------------------

  这样的问题中,作为研究多智能体的痛苦在于,如何让单独行动的机器人不要陷入低效的nash均衡解,而达到帕累托最优。

  假设1:让两方都总选择不招供。

  但这个时候如果有别人家的机器人进我的系统,便宜就都让别人占去了,显得我们家机器人很蠢。

  假设2:找一个绝对可靠的裁决官,如果有一封背叛,将付出巨大的代价,嘿嘿嘿~

  但找裁决官不利于系统扩展,随着我机器人家族规模扩大,我的裁决官将累到宕机。

  假设3:合同机制,加入合同动作如果两方都签合同就采取合谋动作,如果对方不签就招供,而且这个是新的nash均衡解哦。

  

  但是,现实点吧,有的时候,就是不知道对方会干什么才会陷入低效点nash均衡解啊,否则楼上穷凶极饿的两个人何必一拍两散。

  假设4:TfT机制(其实就是以牙还牙以眼还眼机制啦)

  要不然都招供,要不然都不招供,总之我们要公平。但是啦,他对于初始化有严格的要求,容易陷入冤冤相报何时了。

  假设5:算法正在完成中,不如你先猜猜看?

  今天的内容就结束啦,希望能帮助到大家了解博弈论,也对大家的生活有所启发呀,有想法的朋友讨论~

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

跟贴 跟贴 0 参与 0
© 1997-2019 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

社交毫无意义

自闭症患者的多智能体研究日常

头像

社交毫无意义

自闭症患者的多智能体研究日常

1

篇文章

0

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码