文章/答案/技术大牛

发布

社区首页 >问答首页 >Python -将数据分成n个分层的部分

问Python -将数据分成n个分层的部分
EN

Stack Overflow用户

提问于 2019-08-29 02:15:31

回答 2查看 1.4K关注 0票数 2

我有一个几千个样本(X和y)的数据集，我想把它分成n个相等的部分，每个部分我想把它们分成训练/测试。据我所知，sklearn中的分层k-fold几乎就是我想要的，但它不会将每个块划分为训练/测试。

有没有其他函数可以帮我做到这一点？

python

scikit-learn

dataset

回答 2

Stack Overflow用户

发布于 2019-08-29 07:56:12

这对我很有效：

from random import shuffle
n_splits = 10
n_classes = 2
#Get each of the classes into their own list of samples
class_split_list = {}
for i in range(n_classes):
    class_list = list(set(data.iloc[data.groupby(['normal']).groups[i]].sample_id.tolist()))
    shuffle(class_list)
    class_split_list[i] = np.array_split(class_list,n_splits)#create a dict of split chunks

stratified_sample_chunks = []
for i in range(n_splits):
    class_chunks = []
    for j in range(n_classes):
        class_chunks.extend(class_split_list[j][i])#get split from current class
    stratified_sample_chunks.append(class_chunks)

print(stratified_sample_chunks[0][:20])

您可以将class_list = list(set(data.iloc[data.groupby(['normal']).groups[i]].sample_id.tolist()))更改为class_list = list(set(data.iloc[data.groupby(['Column_with_y_values']).groups[i]].index.tolist()))

票数 1

Stack Overflow用户

发布于 2019-08-29 02:18:59

from sklearn.model_selection import train_test_split
n = 10
chunk_size = int(df.shape[0] / n) + 1
for i in range(n):
  start = chunk_size * i
  data = df.iloc[start: start + chunk_size]
  X_data = data.drop(['target'], axis=1)
  y_data = data['target']
  X_train, X_test, y_train, y_test = train_test_split(X_data, y_data)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57698032

复制

相似问题

问Python -将数据分成n个分层的部分
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -将数据分成n个分层的部分EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -将数据分成n个分层的部分
EN