文章/答案/技术大牛

发布

社区首页 >问答首页 >MCTS代理对Tic-Tac-脚趾做出错误的决定

问MCTS代理对Tic-Tac-脚趾做出错误的决定
EN

Stack Overflow用户

提问于 2021-02-06 21:27:11

回答 1查看 270关注 0票数 0

我已经为MCTS工作了几天了。我试着在Tic Toe上实现它，这是我能想到的最简单的游戏，但出于某种原因，我的人工智能一直在做出错误的决定。我试着改变UCB1 1的探索常数的值，每次搜索的迭代次数，甚至是赢、输和打成平局的分数(试图使一场平局更有回报，因为这个AI只打第二，并且试图获得平局，否则就赢)。到目前为止，代码如下所示：

import random
import math
import copy
class tree:
    def __init__(self, board):
        self.board = board
        self.visits = 0
        self.score = 0
        self.children = []
class mcts:
    def search(self, mx, player,):
        root = tree(mx)
        for i in range(1200):
            leaf = mcts.expand(self, root.board, player, root)
            result = mcts.rollout(self, leaf)
            mcts.backpropagate(self, leaf, root, result)
        return mcts.best_child(self, root).board

    def expand(self, mx, player, root):
        plays = mcts.generate_states(self, mx, player) #all possible plays
        if root.visits == 0:
            for j in plays:
                root.children.append(j) #create child_nodes in case they havent been created yet
        for j in root.children:
            if j.visits == 0:
                return j #first iterations of the loop
        for j in plays:
            if mcts.final(self, j.board, player):
                return j
        return mcts.best_child(self, root) #choose the one with most potential

    def rollout(self, leaf):
        mx = leaf.board
        aux = 1
        while mcts.final(self, mx, "O") != True:
            if aux == 1: # "X" playing
                possible_states = []
                possible_nodes = mcts.generate_states(self, mx, "X")
                for i in possible_nodes:
                    possible_states.append(i.board)
                if len(possible_states) == 1: mx =  possible_states[0]
                else:
                    choice = random.randrange(0, len(possible_states) - 1)
                    mx = possible_states[choice]
                if mcts.final(self, mx, "X"): #The play by "X" finished the game
                    break
            elif aux == 0: # "O" playing
                possible_states = []
                possible_nodes = mcts.generate_states(self, mx, "O")
                for i in possible_nodes:
                    possible_states.append(i.board)
                if len(possible_states) == 1: mx =  possible_states[0]
                else:
                    choice = random.randrange(0, len(possible_states) - 1)
                    mx = possible_states[choice]
            aux += 1
            aux = aux%2
        if mcts.final(self, mx, "X"):
            for i in range(len(mx)):
                for k in range(len(mx[i])):
                    if mx[i][k] == "-":
                        return -1 #loss
            return 0 #tie
        elif mcts.final(self, mx, "O"):
            for i in range(len(mx)):
                for k in range(len(mx[i])):
                    if mx[i][k] == "-":
                        return 1 #win


    def backpropagate(self, leaf, root, result): # updating our prospects stats
        leaf.score += result
        leaf.visits += 1
        root.visits += 1

    def generate_states(self, mx, player):
        possible_states = [] #generate child_nodes
        for i in range(len(mx)):
            for k in range(len(mx[i])):
                if mx[i][k] == "-":
                    option = copy.deepcopy(mx)
                    option[i][k] = player
                    child_node = tree(option)
                    possible_states.append(child_node)
        return possible_states

    def final(self,mx, player): #check if game is won
        possible_draw = True
        win = False
        for i in mx: #lines
            if i == [player, player, player]:
                win = True
                possible_draw = False
        if mx[0][0] == player: #diagonals
            if mx[1][1] == player:
                if mx[2][2] == player:
                    win = True
                    possible_draw = False
        if mx[0][2] == player:
            if mx[1][1] == player:
                if mx[2][0] == player:
                    win = True
                    possible_draw = False
        for i in range(3): #columns
            if mx[0][i] == player and mx[1][i] == player and mx[2][i] == player:
                win = True
                possible_draw = False
        for i in range(3):
            for k in range(3):
                if mx[i][k] == "-":
                    possible_draw = False
        if possible_draw:
            return possible_draw
        return win

    def calculate_score(self, score, child_visits, parent_visits, c): #UCB1
        return score / child_visits + c * math.sqrt(math.log(parent_visits) / child_visits)

    def best_child(self, root): #returns most promising node
        treshold = -1*10**6
        for j in root.children:
            potential = mcts.calculate_score(self, j.score, j.visits, root.visits, 2)
            if potential > treshold:
                win_choice = j
                treshold = potential
        return win_choice

#todo the AI takes too long for each play, optimize that by finding the optimal approach in the rollout phase

首先，这个AI的目的是返回一个经过修改的矩阵，在这种情况下，他可以尽最大的努力。我发现自己怀疑MCTS算法是否是所有这些失败游戏背后的原因，因为它的实现中可能有一些错误。尽管如此，在我看来，代码做了以下工作：

检查根是否已经有了它的子根，如果有，选择一个随机模拟的最多的promising.

Rollout并保存结果。

更新叶的分数、访问次数和根的访问次数。

重复1200个迭代，在my example

Return中尽可能地最佳移动(矩阵，child_node)。

为什么不起作用？为什么它选择糟糕的剧本而不是最优的剧本？算法实现错误吗？

monte-carlo-tree-search

python

machine-learning

artificial-intelligence

tic-tac-toe

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-02-08 17:22:37

我的错误是在扩展阶段选择访问次数最多的节点，而根据UCB1公式，它应该是最有潜力的节点。在执行一些if条款时，我也犯了一些错误，因为所有的损失都没有被计算在内。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66082171

复制

相似问题

问MCTS代理对Tic-Tac-脚趾做出错误的决定
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MCTS代理对Tic-Tac-脚趾做出错误的决定EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MCTS代理对Tic-Tac-脚趾做出错误的决定
EN