首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用来自不同位置的数据(分类变量)建立统计模型?

如何使用来自不同位置的数据(分类变量)建立统计模型?
EN

Stack Overflow用户
提问于 2021-11-20 19:18:32
回答 1查看 21关注 0票数 0

我正在帮助我的女朋友为她的硕士论文项目做一个模型。Sci)。数据集具有以下列:站点距离(M)深度(cm) pH %N%C C:N

她测量了来自5个不同沼泽(湿地)的土壤/泥炭样本的pH、总碳和总氮。

“distance (M)”是离非随机起点(湿区)的距离,在一些站点中,它也会倒退为负值。C:N由%N和%C派生而来,深度是采集土壤样本的深度。

我们应该如何对数据建模?我们怀疑所有变量之间存在某种关系。

数据是否应该按站点分组,然后进行回归模型,然后与其他站点进行比较?或者如何处理“站点”(分类变量)与数值的关系?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-20 21:10:17

你可以使用很多技术来解决这个问题。one -热编码就是其中之一。实际上,这取决于你的数据。我强烈建议你阅读这个页面来决定最好的选项:https://www.datacamp.com/community/tutorials/categorical-data,你也不应该自己选择你的特征。(我们怀疑所有变量之间有关系。->您不必确定哪些功能是最相关的)。我们可以使用一些方法。请查看此https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70049125

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档