我正在帮助我的女朋友为她的硕士论文项目做一个模型。Sci)。数据集具有以下列:站点距离(M)深度(cm) pH %N%C C:N
她测量了来自5个不同沼泽(湿地)的土壤/泥炭样本的pH、总碳和总氮。
“distance (M)”是离非随机起点(湿区)的距离,在一些站点中,它也会倒退为负值。C:N由%N和%C派生而来,深度是采集土壤样本的深度。
我们应该如何对数据建模?我们怀疑所有变量之间存在某种关系。
数据是否应该按站点分组,然后进行回归模型,然后与其他站点进行比较?或者如何处理“站点”(分类变量)与数值的关系?
发布于 2021-11-20 21:10:17
你可以使用很多技术来解决这个问题。one -热编码就是其中之一。实际上,这取决于你的数据。我强烈建议你阅读这个页面来决定最好的选项:https://www.datacamp.com/community/tutorials/categorical-data,你也不应该自己选择你的特征。(我们怀疑所有变量之间有关系。->您不必确定哪些功能是最相关的)。我们可以使用一些方法。请查看此https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/
https://stackoverflow.com/questions/70049125
复制相似问题