问表格数据(癌症数据集)重塑格式并为分类做准备
EN

Data Science用户

提问于 2022-02-02 13:23:57

回答 1查看 23关注 0票数 1

我有一个癌症和非癌症患者的数据集，并希望为分类准备。

每个示例有4列和1298行。样品总数为68个。所以我的X_train形状是：(68, 1298, 4)和Y_train形状是(68)。

现在，如果我将数据重组成二维数组，我如何告诉模型来分离这68个样本？

我的问题是:我应该如何重塑数据集，以及如何成为模型的输入形状格式？

发布于 2022-08-05 19:12:59

为了使数据适合机器学习，每一行都应该是一个实例，每一列都应该是一个特性。

您可以声明您有68个示例/实例，这些是行。从你的描述中还不清楚如何构造1298x4维。一种蛮力方法是取笛卡尔乘积，得到5192个列/特征。结果是一个矩阵，为68x5192，并可进行分类。通过特征工程和/或特征选择，可以减少列/特征的数量。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107760

复制

相似问题

问表格数据(癌症数据集)重塑格式并为分类做准备EN