我使用Python语言处理大量文件,需要直接用HDF5编写输出(每个输入文件对应一个数据帧)。我想知道从我的脚本直接向HDF5快速写入pandas数据帧的最好方法是什么?我不确定是否有像hdf5,hadoopy这样的python模块可以做到这一点。在这方面的任何帮助都将受到感谢。
发布于 2016-08-12 21:04:43
对于这个相当普遍的问题,很难给你一个好的答案。
还不清楚你将如何使用(读取)你的HDF5文件--你想有条件地选择数据(使用where参数)吗?
打开一个store对象所需的所有fir:
store = pd.HDFStore('/path/to/filename.h5')现在您可以写入(或附加)到存储中(我在这里使用blosc压缩-它非常快和有效),此外,我将使用data_columns参数来指定必须索引的列(这样您可以在稍后读取HDF5文件时在where参数中使用这些列):
for f in files:
#read or process each file in/into a separate `df`
store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')
store.close()https://stackoverflow.com/questions/38915917
复制相似问题