我想用bcolz保存一只熊猫的数据文件。
我试过:
import bcolz
import pandas as pd
df = pd.read_csv(open("mydata.csv", 'rb'), delimiter='\t')
ct = bcolz.ctable.fromdataframe(df)在此之后,ct包含压缩数据,但我无法找到如何将其保存到文件中。
发布于 2015-08-05 08:30:03
您可以使用bcolz与持久数据容器完全相同的方式,在内存中的容器。您可能想看看本教程,它使用熊猫/HDF5 5、纯PyTables、SQLite和bcolz处理磁盘上的数据集:
https://github.com/FrancescAlted/EuroPython2015/blob/master/4-On-Disk-Tables.ipynb
发布于 2015-08-18 21:01:34
在读取dataframe时,只需指定创建表的位置,如下所示:
import bcolz
import pandas as pd
df = pd.read_csv(open("mydata.csv", 'rb'), delimiter='\t')
ct = bcolz.ctable.fromdataframe(df, rootdir='dataframe.bcolz')发布于 2015-07-27 00:26:07
看起来,bcolz.ctable有一个您可以使用的tohdf5方法;但是,您需要安装hdf5、pytable等。否则您可以使用pickle,这是将一般Python对象保存到磁盘的通常方法。
顺便说一句,如果您只是对压缩数据感兴趣,那么您可能需要考虑一种更低技术的选项,如gzip;如果不是更好的话,压缩也将与柱状数据格式一样好,后者更关心对数据进行快速查询。
https://stackoverflow.com/questions/31641967
复制相似问题