首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >这是维度过大的情况吗? 1881个样本,2562个特征。

这是维度过大的情况吗? 1881个样本,2562个特征。
EN

Data Science用户
提问于 2022-10-22 02:16:39
回答 1查看 30关注 0票数 0

我一直在努力为医学数据创建一个多级别的分类模型。我有1881个样品,每个2562个特征,总共有6个班。我的班级分布如下:

{1: 83,2: 1021,4: 169,5: 229,6: 288,3: 91}

有人能告诉我这个数据集将如何影响我的模型的性能吗?我已经做了一些研究,这可能会导致问题的维度,但我希望得到一些澄清,如果这是主题,我将如何解决它。

我仍然是相对较新的工作与人工智能模型,所以绝对任何帮助是非常感谢,让我知道,如果你需要更多的信息。

EN

回答 1

Data Science用户

发布于 2022-10-22 07:33:01

在大多数数据科学场景中,数以千计的特性与此无关。仅仅几个就足够了,但这取决于数据。

一般来说,一些数据预处理是必要的,以采取最相关的特征。这可以通过一张相关图来完成。

https://medium.com/@szabo.bibor/how-to-create-a-seaborn-correlation-heatmap-in-python-834c0686b88e

与其他特征相关值在0左右的特征可以被删除,强相关特征可以合并为一个特征。

如果您也希望对数据有一个更清晰的视图,您可以应用降维算法将数据压缩到2或3维,并获得类似特性的集群。它也适用于对相似样本进行分组。

https://umap-learn.readthedocs.io/en/latest/clustering.html

最后一个提示:从更小的样本开始,使用更少的特性,以减少处理时间,并快速建立有效的模型。然后增加它们以涵盖所有的特征和样本。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115473

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档