我有一个癌症和非癌症患者的数据集,并希望为分类准备。
每个示例有4列和1298行。样品总数为68个。所以我的X_train形状是:(68, 1298, 4)和Y_train形状是(68)。
现在,如果我将数据重组成二维数组,我如何告诉模型来分离这68个样本?
我的问题是:我应该如何重塑数据集,以及如何成为模型的输入形状格式?
发布于 2022-08-05 19:12:59
为了使数据适合机器学习,每一行都应该是一个实例,每一列都应该是一个特性。
您可以声明您有68个示例/实例,这些是行。从你的描述中还不清楚如何构造1298x4维。一种蛮力方法是取笛卡尔乘积,得到5192个列/特征。结果是一个矩阵,为68x5192,并可进行分类。通过特征工程和/或特征选择,可以减少列/特征的数量。
https://datascience.stackexchange.com/questions/107760
复制相似问题