最近,Google DeepMind的研究人员发表了一篇纸,他们描述了一种围棋游戏系统,它击败了目前最好的计算机程序和人类欧洲冠军。
我快速地看了一下那篇论文,它似乎使用了以前论文中的许多有趣的想法。他们采取了什么不同的做法,使他们能够实现这一惊人的进步?
发布于 2016-01-30 23:56:07
AlphaGo之前的现有程序基于:
1)卷积神经网络(CNN),在现有游戏的数据库上进行训练。
或
2)蒙特卡罗树搜索(MCTS)
AlphaGo基于以下几个方面的组合:
( A)强化学习:通过让CNN的版本(见上文)相互对抗来训练网络。
和
( B)使用步骤A所产生的移动的MCTS )
此外,使用大量CPU和GPU的分布式计算进一步提高了性能。
因此,新颖性是上述技术的结合( A)和B)。
发布于 2016-05-14 11:27:55
他们使用的组件中没有什么是新颖的。已经探讨了所有的办法。检查他们的参考资料,你会注意到许多研究人员在做类似的工作。新奇之处在于他们所遵循的管道,以及无模型和基于模型的强化学习方法的结合。我将尝试给你一个非技术性的不同的视角,他们捕获了什么。
无模型方法通常尝试近似函数,例如值函数(表示在特定的状态板配置中它有多好-就未来的奖励而言)或参数化的策略函数(选择给定状态的动作的概率)。简单地说,你的模型获得了某种“直觉”,其中的动作是相对好的--类似于直觉专业的围棋玩家,当他们宣称自己做一个动作是因为“感觉”不错时。这是非常重要的,在游戏的早期阶段,当规划是低效的使用。
基于模型的方法试图以决策树的形式模拟游戏的每一个可能的轨迹。因此,它们对计划是有用的(在游戏中实际采取行动之前,您会检查和评估所有可能发生的意外情况,然后决定从当前位置采取哪个移动)。MCTS就是这样一种算法,从当前的棋盘位置创建一个可能的未来游戏过程的决策树,并根据一定的标准对这些启发式算法进行评估。到目前为止,Go中最好的算法是基于这个算法(并且被认为是一个RL算法)。
因此,在新颖性方面,只需几个词:规划和直觉的结合,这意味着MCTS算法与函数逼近器相结合,用于评估模拟的游戏轨迹。在这种情况下,他们使用非常深的卷积神经网络作为‘直觉’部分。此外,整个模型是由数据驱动的,因为它最初是关于人类专家移动的培训(这在除游戏之外的许多其他领域的应用中都很有用)。如果您检查每一个组件,没有什么novel...but,整个过程有效地结合了所有这些元素,并在这个复杂的领域获得掌握是一件新奇的事情。希望能帮上忙!
https://datascience.stackexchange.com/questions/10032
复制相似问题