首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >表格数据(癌症数据集)重塑格式并为分类做准备

表格数据(癌症数据集)重塑格式并为分类做准备
EN

Data Science用户
提问于 2022-02-02 13:23:57
回答 1查看 23关注 0票数 1

我有一个癌症和非癌症患者的数据集,并希望为分类准备。

每个示例有4列和1298行。样品总数为68个。所以我的X_train形状是:(68, 1298, 4)Y_train形状是(68)

现在,如果我将数据重组成二维数组,我如何告诉模型来分离这68个样本?

我的问题是:我应该如何重塑数据集,以及如何成为模型的输入形状格式?

EN

回答 1

Data Science用户

发布于 2022-08-05 19:12:59

为了使数据适合机器学习,每一行都应该是一个实例,每一列都应该是一个特性。

您可以声明您有68个示例/实例,这些是行。从你的描述中还不清楚如何构造1298x4维。一种蛮力方法是取笛卡尔乘积,得到5192个列/特征。结果是一个矩阵,为68x5192,并可进行分类。通过特征工程和/或特征选择,可以减少列/特征的数量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/107760

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档