我想开发一个使用强化学习的数学测验程序。假设我们手头有1000个问题,每个测验要问25个问题。程序必须从用户回答和提出下一个问题的方式中学习,而不是随机提问。
测验程序应该是一种强化学习智能体。如何设计解决方案?要使用哪些强化学习技术?示例: BoT:什么是机器人1:用户:3(错误答案) 5+:问了一个简单的问题,或者正确答案问了一个困难的问题。
发布于 2020-08-08 08:56:22
PPO是edTech空间中这些类型的RL应用程序的一种非常常见的技术。您可以从这个article中获得很多灵感。它们使用RLgraph包和PPO算法。
你必须首先定义你的目标/奖励函数。在您的情况下,我会定义奖励函数,使其与之前正确回答的问题的百分比有关。如果此百分比为0%或100%,则奖励较低(太难/太容易)。如果接近50%,你可能会选择高奖励。
这样,算法就会转向正确率达到50%的问题(中等难度)。您可以使用范围(最后2个Q或最后10个Q)。
作为状态空间,您还可以包括正确回答的问题,可能是年龄等特征,以帮助启动算法时,用户还没有太多使用它。
作为动作空间,你可以有所有的问题。你也可以根据你的直觉对问题进行聚类(例如,困难/简单,或几何/代数),并使聚类采取行动,以减少行动空间。
https://stackoverflow.com/questions/53983652
复制相似问题