我在我的PyCharm to中使用Python3.6解释器,并试图将CSV转换为Parquet。
import pandas as pd
df = pd.read_csv('/parquet/drivers.csv')
df.to_parquet('output.parquet')错误-1 ImportError:无法找到可用的引擎;尝试使用:‘py箭头’,‘扣板’。皮箭或紧固件是支撑拼花的必要条件。
解决方案-1安装的紧固件0.2.1
Error-2文件“/User/python第131行,在compress_data (算法,排序(压缩)) RuntimeError:压缩‘’不可用。选项:“GZIP”、“未压缩”
我安装了python 0.5.3,但仍然得到相同的错误?我需要安装其他库吗?
如果我使用PyArrow 0.12.0引擎,我就不会遇到这个问题。
发布于 2020-01-17 15:50:52
在快速拼花中,快速压缩是可选的特性。
要快速检查从csv到地板的转换,您可以执行以下脚本(只需要熊猫和紧固件):
import pandas as pd
from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
# df.head() # Test your initial value
df.to_csv("/tmp/test_csv", index=False)
df_csv = pd.read_csv("/tmp/test_csv")
df_csv.head() # Test your intermediate value
df_csv.to_parquet("/tmp/test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head() # Test your final value但是,如果需要使用snappy压缩进行写入或读取,则可以遵循此answer about installing snappy library on ubuntu。
https://stackoverflow.com/questions/54642089
复制相似问题