文章/答案/技术大牛

发布

社区首页 >问答首页 >谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处？

问谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处？
EN

Data Science用户

提问于 2016-01-30 18:41:55

回答 2查看 1.1K关注 0票数 7

最近，Google DeepMind的研究人员发表了一篇纸，他们描述了一种围棋游戏系统，它击败了目前最好的计算机程序和人类欧洲冠军。

我快速地看了一下那篇论文，它似乎使用了以前论文中的许多有趣的想法。他们采取了什么不同的做法，使他们能够实现这一惊人的进步？

reinforcement-learning

回答 2

Data Science用户

发布于 2016-01-30 23:56:07

AlphaGo之前的现有程序基于：

1)卷积神经网络(CNN)，在现有游戏的数据库上进行训练。

或

2)蒙特卡罗树搜索(MCTS)

AlphaGo基于以下几个方面的组合：

( A)强化学习:通过让CNN的版本(见上文)相互对抗来训练网络。

和

( B)使用步骤A所产生的移动的MCTS )

此外，使用大量CPU和GPU的分布式计算进一步提高了性能。

因此，新颖性是上述技术的结合( A)和B)。

票数 6

Data Science用户

发布于 2016-05-14 11:27:55

他们使用的组件中没有什么是新颖的。已经探讨了所有的办法。检查他们的参考资料，你会注意到许多研究人员在做类似的工作。新奇之处在于他们所遵循的管道，以及无模型和基于模型的强化学习方法的结合。我将尝试给你一个非技术性的不同的视角，他们捕获了什么。

无模型方法通常尝试近似函数，例如值函数(表示在特定的状态板配置中它有多好-就未来的奖励而言)或参数化的策略函数(选择给定状态的动作的概率)。简单地说，你的模型获得了某种“直觉”，其中的动作是相对好的--类似于直觉专业的围棋玩家，当他们宣称自己做一个动作是因为“感觉”不错时。这是非常重要的，在游戏的早期阶段，当规划是低效的使用。

基于模型的方法试图以决策树的形式模拟游戏的每一个可能的轨迹。因此，它们对计划是有用的(在游戏中实际采取行动之前，您会检查和评估所有可能发生的意外情况，然后决定从当前位置采取哪个移动)。MCTS就是这样一种算法，从当前的棋盘位置创建一个可能的未来游戏过程的决策树，并根据一定的标准对这些启发式算法进行评估。到目前为止，Go中最好的算法是基于这个算法(并且被认为是一个RL算法)。

因此，在新颖性方面，只需几个词:规划和直觉的结合，这意味着MCTS算法与函数逼近器相结合，用于评估模拟的游戏轨迹。在这种情况下，他们使用非常深的卷积神经网络作为‘直觉’部分。此外，整个模型是由数据驱动的，因为它最初是关于人类专家移动的培训(这在除游戏之外的许多其他领域的应用中都很有用)。如果您检查每一个组件，没有什么novel...but，整个过程有效地结合了所有这些元素，并在这个复杂的领域获得掌握是一件新奇的事情。希望能帮上忙！

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/10032

复制

相似问题

问谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问谷歌Deepmind的围棋游戏系统AlphaGo有什么新奇之处？
EN