最近我有一个机器学习(ML)项目,它需要识别特征(inputs,a1,a2,a3 ...A)对目标/产出有很大影响。
我使用线性回归来获得特征的系数,并使用决策树算法(例如随机森林回归)来获得重要的特征(或特征重要性)。
我的理解对吗?线性回归中系数大的特征应该在决策树算法中特征重要性的最高列表中。
发布于 2019-04-18 20:43:29
不完全是,如果你的输入特征没有被标准化,那么对于具有相对较大的均值/标准差的特征,你可能会有一个相对较大的系数。如果您的功能是标准化的,那么是的,这可能是功能重要性的指示器,但仍有其他事情需要考虑。
你可以尝试一些sklearn的功能选择类,它们会自动为你here。
发布于 2019-04-18 23:47:41
对你的问题的简短回答是不,不一定。考虑到我们不知道你的不同输入是什么,如果它们在相同的单位系统,变化范围等,我不确定你为什么要将线性回归和决策树结合起来。但我只是假设你有一个工作模型,比如线性回归,它在测试集上提供了很好的准确性。根据您所提出的问题,您可能需要查看基于所获得的模型的敏感性分析。我建议做一些关于"SALib“库的阅读,通常是关于敏感性分析的主题。
https://stackoverflow.com/questions/55742573
复制相似问题