我有一个10.11 GB的CSV文件,我已经转换为hdf5使用dask。它是str、int和浮值的混合物。当我试着阅读它时,我只得到屏幕截图中给出的数字。有人能帮帮我吗?
截图:

发布于 2020-08-05 21:04:10
我不确定dask (或dask.dataframe)如何以HDF5格式存储数据。例如,熊猫以基于行的格式存储数据。另一方面,vaex需要一个基于列的HDF5文件。
从您的屏幕截图中,我看到您的hdf5文件还保留了索引列-- vaex没有这样的列,并且只期望得到数据。
为了确保HDF5文件与vaex一起工作,最好使用vaex本身来完成CSV->HDF5 5转换。否则,像arrow这样的东西可能会起作用,因为它是一个标准(而HDF5可以更灵活,更难支持所有可能的存储数据版本)。
https://stackoverflow.com/questions/63011866
复制相似问题