首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >熊猫HDFStore :省略重复

熊猫HDFStore :省略重复
EN

Stack Overflow用户
提问于 2017-01-27 09:14:16
回答 2查看 1.4K关注 0票数 1

我有一个HDFStore,每晚输入数据。我在想,如果系统崩溃等,我可能会重新运行进程,所以我想确保,如果已经存在一排熊猫不包括这个,当进程下一次运行。有没有一种方法可以查找副本而不包括它们?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-01-27 13:32:18

如果HDFStore中有唯一索引,则可以使用以下方法:

创建示例DF:

代码语言:javascript
复制
In [34]: df = pd.DataFrame(np.random.rand(5,3), columns=list('abc'))

In [35]: df
Out[35]:
          a         b         c
0  0.407144  0.972121  0.462502
1  0.044768  0.165924  0.852705
2  0.703686  0.156382  0.066925
3  0.912794  0.362916  0.866779
4  0.156249  0.625272  0.360799

将其保存到HDFStore:

代码语言:javascript
复制
In [36]: store = pd.HDFStore(r'd:/temp/t.h5')

In [37]: store.append('test', df, format='t')

向DF添加一个新行:

代码语言:javascript
复制
In [38]: df.loc[len(df)] = [-1, -1, -1]

In [39]: df
Out[39]:
          a         b         c
0  0.407144  0.972121  0.462502
1  0.044768  0.165924  0.852705
2  0.703686  0.156382  0.066925
3  0.912794  0.362916  0.866779
4  0.156249  0.625272  0.360799
5 -1.000000 -1.000000 -1.000000   # new row, which is NOT in the HDF file

选择复制的行的索引:

代码语言:javascript
复制
In [40]: idx = store.select('test', where="index in df.index", columns=['index']).index

核对:

代码语言:javascript
复制
In [41]: df.query("index not in @idx")
Out[41]:
     a    b    c
5 -1.0 -1.0 -1.0

只向HDFStore附加那些尚未保存的行:

代码语言:javascript
复制
In [42]: store.append('test', df.query("index not in @idx"), format='t')

核对:

代码语言:javascript
复制
In [43]: store.select('test')
Out[43]:
          a         b         c
0  0.407144  0.972121  0.462502
1  0.044768  0.165924  0.852705
2  0.703686  0.156382  0.066925
3  0.912794  0.362916  0.866779
4  0.156249  0.625272  0.360799
5 -1.000000 -1.000000 -1.000000   # new row has been added
票数 5
EN

Stack Overflow用户

发布于 2017-01-27 11:27:00

如果代码中有数据,则可以添加数据并应用于它:

代码语言:javascript
复制
.drop_duplicates()

这将从dataframe中删除任何重复的数据。

希望这有帮助

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41890393

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档