首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用基于规则的“专家”进行模仿学习?

如何使用基于规则的“专家”进行模仿学习?
EN

Stack Overflow用户
提问于 2022-04-09 11:04:41
回答 1查看 106关注 0票数 -1

我目前正在训练一个PPO模型来进行模拟。PPO模型不能理解某些条件会导致没有回报。

这些导致没有报酬的条件是非常简单的规则。我试图用这些规则创建一个PPO模型可以用来模仿学习的“专家”。

基于专家的规则的示例:

如果资源A不可用,则不要选择该资源。

如果"X“和"Y”不匹配,那么就不要选择那些。

带有模拟库的示例

我在看“模仿”python库。这里的例子显示了一个专家,它是一个具有更多迭代的PPO模型。

https://github.com/HumanCompatibleAI/imitation/blob/master/examples/1_train_bc.ipynb

问题:

有没有一种方法可以将简单的“基于规则的”专家转换成一个PPO模型,用于模仿学习?

或者,在模仿学习中使用“基于规则”的专家有不同的方法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-04-09 12:03:01

观察行为克隆是如何实施的:

代码语言:javascript
复制
from imitation.algorithms import bc

bc_trainer = bc.BC(
    observation_space=env.observation_space,
    action_space=env.action_space,
    demonstrations=transitions,
)

你所要做的就是创建演示。您甚至不需要编写“代理”本身。只需使用基于规则的机器人生成与环境交互的序列,仅此而已。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71807485

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档