问强化学习:处理不可量化的反馈系统
EN

Stack Overflow用户

提问于 2018-05-12 20:32:30

回答 1查看 49关注 0票数 1

我正在尝试写一个强化学习算法，为了简单起见，它将预测一个我认为通过n个输入的数字，它们是什么并不重要。所以当算法预测一个数字时，我只会说“非常近”“接近”“精确”“远”“太远”

现在我看过的所有教程都有一个可以量化的结果，他们通常会做均方误差来看看预测中有多少误差。但是这里的反馈是无法量化的。

我该如何解决这个问题？仅供参考，我是ML的新手，它没有必要是强化学习。我也尝试过神经网络方法，但即使这样也有类似的问题。

发布于 2018-05-14 23:32:24

如果您使用简单的线性回归来处理此问题，则可以根据先前的示例来训练模型。n输入和每个输入的实际答案将用于创建最接近满足所有示例数据的线性方程。当请求预测时，n输入通过此方程馈送，此结果将成为预测。

使用强化学习，智能体是基于在环境中在一组状态下采取特定操作所获得的“奖励”进行训练的。这些奖励必须是可量化的。要使用RL方法，您需要量化您的响应集。我可以想象，“精确”会有一个大的正奖励，“近”会有一个小的正奖励，“远”会有一个负奖励。您必须以某种方式量化您的反馈，否则RL代理将无法“学习”。

您仍然可以使用RMSE作为衡量策略准确性的指标，方法是测量预测数量与预期结果之间的差异。您应该能够访问实际结果，否则如何知道预测是准确的、接近的还是遥远的？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50306301

复制

相似问题

问强化学习:处理不可量化的反馈系统EN