首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python Pandas使用Fastparquet将CSV转换为Parquet

Python Pandas使用Fastparquet将CSV转换为Parquet
EN

Stack Overflow用户
提问于 2019-02-12 02:42:56
回答 1查看 7.2K关注 0票数 4

我在我的PyCharm to中使用Python3.6解释器,并试图将CSV转换为Parquet。

代码语言:javascript
复制
import pandas as pd    
df = pd.read_csv('/parquet/drivers.csv')
df.to_parquet('output.parquet')

错误-1 ImportError:无法找到可用的引擎;尝试使用:‘py箭头’,‘扣板’。皮箭或紧固件是支撑拼花的必要条件。

解决方案-1安装的紧固件0.2.1

Error-2文件“/User/python第131行,在compress_data (算法,排序(压缩)) RuntimeError:压缩‘’不可用。选项:“GZIP”、“未压缩”

我安装了python 0.5.3,但仍然得到相同的错误?我需要安装其他库吗?

如果我使用PyArrow 0.12.0引擎,我就不会遇到这个问题。

EN

回答 1

Stack Overflow用户

发布于 2020-01-17 15:50:52

在快速拼花中,快速压缩是可选的特性。

要快速检查从csv到地板的转换,您可以执行以下脚本(只需要熊猫和紧固件):

代码语言:javascript
复制
import pandas as pd
from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
# df.head() # Test your initial value
df.to_csv("/tmp/test_csv", index=False)
df_csv = pd.read_csv("/tmp/test_csv")
df_csv.head() # Test your intermediate value
df_csv.to_parquet("/tmp/test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head() # Test your final value

但是,如果需要使用snappy压缩进行写入或读取,则可以遵循此answer about installing snappy library on ubuntu

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54642089

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档