首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大学生GPA预测

大学生GPA预测
EN

Data Science用户
提问于 2021-05-05 10:08:20
回答 1查看 61关注 0票数 1

我的数据集由8列和15600行组成,列如下:

1.Entry_academic_year有5个离散值(2558,2559,2560,2561,2562) 2.教师(学生学得像工程一样)3.分支(学生学的是软件工程学的分支)4.学生进入大学的辅助类型(学生如何进入大学) 5.Graduated_high_school (是学生毕业的高中) 6.province_of_school 7.GPA_high_school(是高中生的GPA )8.GPA_college(是学生在大学期间的GPA )

我正试图用百分位数(25,50,75)将GPA划分成4个四分位数来预测学院学生的平均绩点,我面临的问题是,Graduated_high_school列有大约1732个独特的值,有些学校只有一行,这使得预测的准确率在30-35 %左右。

知道怎么修吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-05-06 05:10:47

也许您可以看到Graduated_high_school是否以任何方式与GPA_college相关?如果没有关联,可以尝试通过删除Graduated_high_school列来拟合模型。

否则,您可以尝试删除属于代表性不足的高中的行。然而,我预见到的一个问题是,未来的预测可能会出现在培训数据集中看不到的Graduated_high_school,从而导致问题(例如,数据集中没有提到的学校,或者如果有人决定在来自另一个国家的数据集上使用您的模型)。因此,如果Graduated_high_school不重要,我会考虑完全放弃它。

或者,你可以把Graduated_high_school改为其他相关的东西,比如高中教师的数量,师生比例等等。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/94014

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档