首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处?

谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处?
EN

Data Science用户
提问于 2016-01-30 18:41:55
回答 2查看 1.1K关注 0票数 7

最近,Google DeepMind的研究人员发表了一篇,他们描述了一种围棋游戏系统,它击败了目前最好的计算机程序和人类欧洲冠军。

我快速地看了一下那篇论文,它似乎使用了以前论文中的许多有趣的想法。他们采取了什么不同的做法,使他们能够实现这一惊人的进步?

EN

回答 2

Data Science用户

发布于 2016-01-30 23:56:07

AlphaGo之前的现有程序基于:

1)卷积神经网络(CNN),在现有游戏的数据库上进行训练。

2)蒙特卡罗树搜索(MCTS)

AlphaGo基于以下几个方面的组合:

( A)强化学习:通过让CNN的版本(见上文)相互对抗来训练网络。

( B)使用步骤A所产生的移动的MCTS )

此外,使用大量CPU和GPU的分布式计算进一步提高了性能。

因此,新颖性是上述技术的结合( A)和B)。

票数 6
EN

Data Science用户

发布于 2016-05-14 11:27:55

他们使用的组件中没有什么是新颖的。已经探讨了所有的办法。检查他们的参考资料,你会注意到许多研究人员在做类似的工作。新奇之处在于他们所遵循的管道,以及无模型和基于模型的强化学习方法的结合。我将尝试给你一个非技术性的不同的视角,他们捕获了什么。

无模型方法通常尝试近似函数,例如值函数(表示在特定的状态板配置中它有多好-就未来的奖励而言)或参数化的策略函数(选择给定状态的动作的概率)。简单地说,你的模型获得了某种“直觉”,其中的动作是相对好的--类似于直觉专业的围棋玩家,当他们宣称自己做一个动作是因为“感觉”不错时。这是非常重要的,在游戏的早期阶段,当规划是低效的使用。

基于模型的方法试图以决策树的形式模拟游戏的每一个可能的轨迹。因此,它们对计划是有用的(在游戏中实际采取行动之前,您会检查和评估所有可能发生的意外情况,然后决定从当前位置采取哪个移动)。MCTS就是这样一种算法,从当前的棋盘位置创建一个可能的未来游戏过程的决策树,并根据一定的标准对这些启发式算法进行评估。到目前为止,Go中最好的算法是基于这个算法(并且被认为是一个RL算法)。

因此,在新颖性方面,只需几个词:规划和直觉的结合,这意味着MCTS算法与函数逼近器相结合,用于评估模拟的游戏轨迹。在这种情况下,他们使用非常深的卷积神经网络作为‘直觉’部分。此外,整个模型是由数据驱动的,因为它最初是关于人类专家移动的培训(这在除游戏之外的许多其他领域的应用中都很有用)。如果您检查每一个组件,没有什么novel...but,整个过程有效地结合了所有这些元素,并在这个复杂的领域获得掌握是一件新奇的事情。希望能帮上忙!

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10032

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档