文章/答案/技术大牛

发布

社区首页 >问答首页 >这是维度过大的情况吗? 1881个样本，2562个特征。

问这是维度过大的情况吗? 1881个样本，2562个特征。
EN

Data Science用户

提问于 2022-10-22 02:16:39

回答 1查看 30关注 0票数 0

我一直在努力为医学数据创建一个多级别的分类模型。我有1881个样品，每个2562个特征，总共有6个班。我的班级分布如下：

{1: 83，2: 1021，4: 169，5: 229，6: 288，3: 91}

有人能告诉我这个数据集将如何影响我的模型的性能吗？我已经做了一些研究，这可能会导致问题的维度，但我希望得到一些澄清，如果这是主题，我将如何解决它。

我仍然是相对较新的工作与人工智能模型，所以绝对任何帮助是非常感谢，让我知道，如果你需要更多的信息。

machine-learning

deep-learning

neural-network

keras

回答 1

Data Science用户

发布于 2022-10-22 07:33:01

在大多数数据科学场景中，数以千计的特性与此无关。仅仅几个就足够了，但这取决于数据。

一般来说，一些数据预处理是必要的，以采取最相关的特征。这可以通过一张相关图来完成。

https://medium.com/@szabo.bibor/how-to-create-a-seaborn-correlation-heatmap-in-python-834c0686b88e

与其他特征相关值在0左右的特征可以被删除，强相关特征可以合并为一个特征。

如果您也希望对数据有一个更清晰的视图，您可以应用降维算法将数据压缩到2或3维，并获得类似特性的集群。它也适用于对相似样本进行分组。

https://umap-learn.readthedocs.io/en/latest/clustering.html

最后一个提示:从更小的样本开始，使用更少的特性，以减少处理时间，并快速建立有效的模型。然后增加它们以涵盖所有的特征和样本。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115473

复制

相似问题

问这是维度过大的情况吗? 1881个样本，2562个特征。
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这是维度过大的情况吗? 1881个样本，2562个特征。EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这是维度过大的情况吗? 1881个样本，2562个特征。
EN