与之相关的人,
我有一个非常大的数据帧(MasterDataFrame),其中包含大约180K个组,我希望将它们拆分为5个较小的DataFrames,并分别处理每个较小的dataframe。有没有人知道有什么方法可以在不意外拆分/危害MasterDataFrame中任何组的完整性的情况下,将其拆分成5个更小的DataFrames?换句话说,我希望5个较小的DataFrames没有重叠的组。
提前谢谢你,
克里斯托斯
这是我的数据集:|=MasterDataset=|名称年龄雇主汤姆12沃尔玛尼克15迪斯尼克里斯18沃尔玛达伦19 KMart Nate43 ESPN Harry 23沃尔玛Uriel 24 KMart Matt 23迪斯尼。。。。。。。。。
我需要能够拆分我的数据集,以便保留上面MasterDataset中显示的组。我的MasterDataset将被拆分成的更小的组需要看起来像这样:
|=SubDataset1=|姓名年龄雇主汤姆12沃尔玛克里斯18沃尔玛哈里23沃尔玛达伦19 KMart乌里尔24 KMart
|=SubDataset2=|姓名年龄雇主尼克15迪士尼马特23迪士尼
发布于 2021-06-01 00:53:32
我假设您的意思是该.iloc的带有"groups“的行数应该是完美的。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html
df_1 = df.iloc[0:100000,:]
df_2 = df.iloc[100001:200000,:]
....https://stackoverflow.com/questions/67777642
复制相似问题