我想将数据类别划分为训练集、测试集和验证集。例如:如果我们在数据集中有3个类别:正、负和中性。正面类别分为训练、测试和验证。其他两个类别也是如此。数据的拆分比例为80%用于训练,20%用于测试。从80%的训练数据中,拆分10%用于验证数据。但最重要的是拆分数据不应该是随机的。
发布于 2019-11-21 16:19:22
您可以使用stratify参数来执行此操作:
例如:如果您要使用Iris dataset来执行此操作。
from sklearn import cross_validation, datasets
X = iris.data[:,:2]
y = iris.target
cross_validation.train_test_split(X,y,stratify=y)你可以在这里阅读更多内容:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
https://stackoverflow.com/questions/58970159
复制相似问题