我正在研究一个用于学生流失预测的ML模型。这是一个分类问题,如果一些学生是否会流失。我有很多数据,比如学生的数据和学生的活动。我想问两个问题:
你会把你的工作分成两种模式:6周后和6周后?你将如何开始这样一个项目?
发布于 2020-06-16 07:46:41
流失模型通常只是简单的预测二进制输出:学生会流失吗?是或不是,1或0。在你的例子中有一个额外的组成部分,即6周的时间因素,所以问题更多的是“学生可能在什么时候流失?”
您的数据集是否包括学生在此课程上停留了多长时间(即离开课程)?
在最高级别,您可以将这个问题建模为一个分类问题或一个回归问题(带有一些后处理)。
如果选择分类,则应将每个学生的目标变量(实际的搅动信息)组成几个离散的类。例如,您可以创建3个类:
0,->,那个学生没有流失1 ->这个学生在6周后就翻身了2 ->在6周内翻动然后,您可以选择任何可以使用您的数据的模型(输入特性),并将每一种情况归类为这三种情况之一。像决策树这样的东西作为一个基线模型可能很好。然后,您也许可以试试一种支持向量机模型。
在这种情况下,您将预测每个学生的确切时间。为此,数据集必须包含课程中产生大量学生离开课程的天数或周数。
在这种情况下,您的目标变量就是这个信息,您的模型将预测数字,比如3.7周或26周;然后您需要简单地将这些结果后处理到您的3个类别中(如上面所列)。
https://datascience.stackexchange.com/questions/76082
复制相似问题