问如何使用来自不同位置的数据(分类变量)建立统计模型？
EN

Stack Overflow用户

提问于 2021-11-20 19:18:32

回答 1查看 21关注 0票数 0

我正在帮助我的女朋友为她的硕士论文项目做一个模型。Sci)。数据集具有以下列:站点距离(M)深度(cm) pH %N%C C:N

她测量了来自5个不同沼泽(湿地)的土壤/泥炭样本的pH、总碳和总氮。

“distance (M)”是离非随机起点(湿区)的距离，在一些站点中，它也会倒退为负值。C:N由%N和%C派生而来，深度是采集土壤样本的深度。

我们应该如何对数据建模？我们怀疑所有变量之间存在某种关系。

数据是否应该按站点分组，然后进行回归模型，然后与其他站点进行比较？或者如何处理“站点”(分类变量)与数值的关系？

回答已采纳

发布于 2021-11-20 21:10:17

你可以使用很多技术来解决这个问题。one -热编码就是其中之一。实际上，这取决于你的数据。我强烈建议你阅读这个页面来决定最好的选项：https://www.datacamp.com/community/tutorials/categorical-data，你也不应该自己选择你的特征。(我们怀疑所有变量之间有关系。->您不必确定哪些功能是最相关的)。我们可以使用一些方法。请查看此https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70049125

复制

相似问题

问如何使用来自不同位置的数据(分类变量)建立统计模型？EN