可以将Pandas数据帧从ORC文件转换为ORC文件吗?我可以在拼图文件中转换df,但是这个库似乎不支持ORC。在Python中有可用的解决方案吗?如果不是,最好的策略是什么?一种选择是使用外部工具将拼图文件转换为ORC,但我不知道在哪里可以找到它。
发布于 2021-07-17 06:20:25
这个答案已经用pyarrow==4.0.1和pandas==1.2.5进行了测试。
它首先使用pyarrow.Table.from_pandas创建一个pyarrow表。然后,它使用pyarrow.orc.ORCFile写入orc文件。
读取orc
import pandas as pd
import pyarrow.orc # This prevents: AttributeError: module 'pyarrow' has no attribute 'orc'
df = pd.read_orc('/tmp/your_df.orc')写orc
import pandas as pd
import pyarrow as pa
import pyarrow.orc as orc
# Here prepare your pandas df.
table = pa.Table.from_pandas(df, preserve_index=False)
orc.write_table(table, '/tmp/your_df.orc')到pandas==1.3.0为止,还没有pd.to_orc编写器。
发布于 2019-11-16 05:16:27
我最近使用了pyarrow,它支持ORC,尽管我看到了一些pyarrow.orc模块没有被加载的问题。
pip install pyarrow要使用以下命令:
import pandas as pd
import pyarrow.orc as orc
with open(filename) as file:
data = orc.ORCFile(file)
df = data.read().to_pandas()https://stackoverflow.com/questions/58728634
复制相似问题