首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何操作数据集

如何操作数据集
EN

Data Science用户
提问于 2023-03-07 09:20:44
回答 1查看 38关注 0票数 0

我有一个从Kaggle获得的原始图像数据集,它已经被分类了,但是我想将这些信息按80:20的比例在火车和测试之间随机分割,问题是既然所有的信息都是分类的,我想把这个文件夹分类保存在我的新的火车集中,而所有的信息都混合在测试文件夹中。我不能自己做,因为我希望它被随机分割,我如何做到这一点?

EN

回答 1

Data Science用户

发布于 2023-03-07 21:40:50

在这个数据集中,您应该准备新的变量,即Xy;其中X = feature matrixy = class variable。现在,使用以下代码将数据分割成所需比例的数据集和测试数据集-

代码语言:javascript
复制
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

test_size帮助您准备80:20的列车测试分割;以及

random_state是随机化的种子值。

每一种不同的种子应产生不同的随机分裂。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120017

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档