问大学生GPA预测
EN

Data Science用户

提问于 2021-05-05 10:08:20

回答 1查看 61关注 0票数 1

我的数据集由8列和15600行组成，列如下：

1.Entry_academic_year有5个离散值(2558,2559,2560,2561,2562) 2.教师(学生学得像工程一样)3.分支(学生学的是软件工程学的分支)4.学生进入大学的辅助类型(学生如何进入大学) 5.Graduated_high_school (是学生毕业的高中) 6.province_of_school 7.GPA_high_school(是高中生的GPA )8.GPA_college(是学生在大学期间的GPA )

我正试图用百分位数(25,50,75)将GPA划分成4个四分位数来预测学院学生的平均绩点，我面临的问题是，Graduated_high_school列有大约1732个独特的值，有些学校只有一行，这使得预测的准确率在30-35 %左右。

知道怎么修吗？

machine-learning

classification

data-cleaning

回答 1

Data Science用户

回答已采纳

发布于 2021-05-06 05:10:47

也许您可以看到Graduated_high_school是否以任何方式与GPA_college相关？如果没有关联，可以尝试通过删除Graduated_high_school列来拟合模型。

否则，您可以尝试删除属于代表性不足的高中的行。然而，我预见到的一个问题是，未来的预测可能会出现在培训数据集中看不到的Graduated_high_school，从而导致问题(例如，数据集中没有提到的学校，或者如果有人决定在来自另一个国家的数据集上使用您的模型)。因此，如果Graduated_high_school不重要，我会考虑完全放弃它。

或者，你可以把Graduated_high_school改为其他相关的东西，比如高中教师的数量，师生比例等等。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/94014

复制

相似问题

问大学生GPA预测
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大学生GPA预测EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大学生GPA预测
EN