文章/答案/技术大牛

发布

问将pandas数据帧写入HDF5
EN

Stack Overflow用户

提问于 2016-08-12 18:36:43

回答 1查看 2.7K关注 0票数 3

我使用Python语言处理大量文件，需要直接用HDF5编写输出(每个输入文件对应一个数据帧)。我想知道从我的脚本直接向HDF5快速写入pandas数据帧的最好方法是什么？我不确定是否有像hdf5，hadoopy这样的python模块可以做到这一点。在这方面的任何帮助都将受到感谢。

python

hadoop

pandas

dataframe

回答 1

Stack Overflow用户

发布于 2016-08-12 21:04:43

对于这个相当普遍的问题，很难给你一个好的答案。

还不清楚你将如何使用(读取)你的HDF5文件--你想有条件地选择数据(使用where参数)吗？

打开一个store对象所需的所有fir：

store = pd.HDFStore('/path/to/filename.h5')

现在您可以写入(或附加)到存储中(我在这里使用blosc压缩-它非常快和有效)，此外，我将使用data_columns参数来指定必须索引的列(这样您可以在稍后读取HDF5文件时在where参数中使用这些列)：

for f in files:
    #read or process each file in/into a separate `df`
    store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')

store.close()

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38915917

复制

相似问题

问将pandas数据帧写入HDF5
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将pandas数据帧写入HDF5EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将pandas数据帧写入HDF5
EN