问使用强化学习的数学测验应用程序
EN

Stack Overflow用户

提问于 2018-12-31 12:39:31

回答 1查看 71关注 0票数 0

我想开发一个使用强化学习的数学测验程序。假设我们手头有1000个问题，每个测验要问25个问题。程序必须从用户回答和提出下一个问题的方式中学习，而不是随机提问。

测验程序应该是一种强化学习智能体。如何设计解决方案?要使用哪些强化学习技术？示例: BoT:什么是机器人1:用户:3(错误答案) 5+：问了一个简单的问题，或者正确答案问了一个困难的问题。

发布于 2020-08-08 08:56:22

PPO是edTech空间中这些类型的RL应用程序的一种非常常见的技术。您可以从这个article中获得很多灵感。它们使用RLgraph包和PPO算法。

你必须首先定义你的目标/奖励函数。在您的情况下，我会定义奖励函数，使其与之前正确回答的问题的百分比有关。如果此百分比为0%或100%，则奖励较低(太难/太容易)。如果接近50%，你可能会选择高奖励。

这样，算法就会转向正确率达到50%的问题(中等难度)。您可以使用范围(最后2个Q或最后10个Q)。

作为状态空间，您还可以包括正确回答的问题，可能是年龄等特征，以帮助启动算法时，用户还没有太多使用它。

作为动作空间，你可以有所有的问题。你也可以根据你的直觉对问题进行聚类(例如，困难/简单，或几何/代数)，并使聚类采取行动，以减少行动空间。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53983652

复制

相似问题

问使用强化学习的数学测验应用程序EN