首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在python中,如何在不替换特定列的情况下生成随机采样?

在python中,如何在不替换特定列的情况下生成随机采样?
EN

Stack Overflow用户
提问于 2020-08-28 16:24:34
回答 2查看 182关注 0票数 2

输入数据看起来有点像这样

代码语言:javascript
复制
import pandas as pd
df = pd.DataFrame({'users': ['John', 'Bob', 'Alice', 'John', 'Alice','Bob','Alice'], 
                   'class': ['Economics','Economics','Economics','Maths','Maths','Physics','Physics']})

应该生成随机数据,使得class不会被替换,但users可以被替换。

代码语言:javascript
复制
random_df1 = pd.DataFrame({'users': ['John', 'Bob', 'Alice'], 
                   'class': ['Economics','Maths','Physics']})
or 
random_df2 = pd.DataFrame({'users': ['John', 'John', 'Bob'], 
                   'class': ['Economics','Maths','Physics']})
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-08-28 17:01:35

使用Series.unique获取列class中的唯一值,然后使用np.random.choice随机选择users (在给定的类中)来创建新的数据帧

代码语言:javascript
复制
df_ = pd.DataFrame([
    {'users': np.random.choice(df.loc[df['class'].eq(c), 'users']), 'class': c}
    for c in df['class'].unique()])

结果:

代码语言:javascript
复制
print(df_)
   users      class
0   John  Economics
1  Alice      Maths
2  Alice    Physics
票数 1
EN

Stack Overflow用户

发布于 2020-08-28 16:39:00

class列上使用groupby,然后使用sample方法从特定class中随机选择样本

代码语言:javascript
复制
df = df.groupby("class").apply(lambda x: x.sample(1)).reset_index(drop=True)

输出:

代码语言:javascript
复制
   users      class
0    Bob  Economics
1  Alice      Maths
2    Bob    Physics
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63630123

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档