我一直在努力为医学数据创建一个多级别的分类模型。我有1881个样品,每个2562个特征,总共有6个班。我的班级分布如下:
{1: 83,2: 1021,4: 169,5: 229,6: 288,3: 91}
有人能告诉我这个数据集将如何影响我的模型的性能吗?我已经做了一些研究,这可能会导致问题的维度,但我希望得到一些澄清,如果这是主题,我将如何解决它。
我仍然是相对较新的工作与人工智能模型,所以绝对任何帮助是非常感谢,让我知道,如果你需要更多的信息。
发布于 2022-10-22 07:33:01
在大多数数据科学场景中,数以千计的特性与此无关。仅仅几个就足够了,但这取决于数据。
一般来说,一些数据预处理是必要的,以采取最相关的特征。这可以通过一张相关图来完成。
https://medium.com/@szabo.bibor/how-to-create-a-seaborn-correlation-heatmap-in-python-834c0686b88e
与其他特征相关值在0左右的特征可以被删除,强相关特征可以合并为一个特征。
如果您也希望对数据有一个更清晰的视图,您可以应用降维算法将数据压缩到2或3维,并获得类似特性的集群。它也适用于对相似样本进行分组。
https://umap-learn.readthedocs.io/en/latest/clustering.html
最后一个提示:从更小的样本开始,使用更少的特性,以减少处理时间,并快速建立有效的模型。然后增加它们以涵盖所有的特征和样本。
https://datascience.stackexchange.com/questions/115473
复制相似问题