文章/答案/技术大牛

发布

社区首页 >问答首页 >如果国家不再重复，强化学习会起作用吗？

问如果国家不再重复，强化学习会起作用吗？
EN

Data Science用户

提问于 2018-10-24 11:57:27

回答 1查看 191关注 0票数 1

我正在开发一个信息检索模型，在这个模型中，用户输入一个查询，该模型必须检索3个最相关的FAQ对。我正在收集页面单击etc.What的隐式反馈--我不明白如何定义状态--如果我想通过强化学习来实现这一点?如果我将每个查询定义为一个状态，所有的状态都会不同-- .Can --请对此有所了解！！

发布于 2018-10-24 14:00:11

我不相信把成功的文档检索作为强化学习的问题是容易得到工作的。

然而，你的核心问题是可以回答的。这个问题发生在其他大到无法探究所有可能状态的问题中。例如，在围棋游戏中，AlphaZero系统不可能探索所有的游戏位置。类似地，在Atari游戏中，许多游戏也成功地应用了强化学习，代理不太可能已经看到系统的所有可能状态--通常情况下，它已经训练了一百万个视频帧。

这个问题的答案是使用某种形式的函数近似，可以推广到新的看不见的数据。这正是受监督的机器学习模型所做的，因此RL代理将在内部使用一种，通常是线性回归或神经网络，因此从其探索的状态中学习的值和策略将与类似的未见状态相关联(用于对相似的某种解释)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/40147

复制

相似问题

问如果国家不再重复，强化学习会起作用吗？EN