首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >http请求,带parquet和pyarrow

http请求,带parquet和pyarrow
EN

Stack Overflow用户
提问于 2020-11-20 09:51:05
回答 1查看 283关注 0票数 0

我想使用pyarrow从rest服务器读取/查询拼图数据。目前,我正在将数据分块,转换为pandas,转储到json,然后流式传输这些数据块。像这样:

代码语言:javascript
复制
p = pq.ParquetDataset('/path/to/data.parquet', filters=filter, use_legacy_dataset=False)
batches = p._dataset.to_batches(filter=p._filter_expression)
(json.dumps(b.to_pandas().values.tolist()) for b in batches)

这实际上是相同的工作

代码语言:javascript
复制
ds = pq.ParquetDataset('/path/to/data.parquet',
                       use_legacy_dataset=False,
                       filters=filters)
df = ds.read().to_pandas()
data = pd.DataFrame(orjson.loads(orjson.dumps(df.values.tolist())))

而没有网络io。它比直接读给熊猫听要慢50倍

代码语言:javascript
复制
df = ds.read().to_pandas()

有没有一种方法可以将拼图数据集序列化为可以通过http发送并在客户端解析的二进制字符串?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-25 01:40:41

您可以使用箭头以内存列格式发送数据。它将比json更高效、更紧凑。但请记住,它将是二进制数据(与json不同,它不是人类可读的)。

有关完整的示例,请参阅doc

在您的例子中,您想要这样做:

代码语言:javascript
复制
ds = pq.ParquetDataset('/path/to/data.parquet',
                       use_legacy_dataset=False,
                       filters=filters)
table = ds.read()  # pa.Table

# Write the data:
batches = table.to_batches()
sink = pa.BufferOutputStream()
writer = pa.ipc.new_stream(sink, table.schema)
for batch in batches:
    writer.write(batch)
writer.close()
buf = sink.getvalue()

# Read the data:
reader = pa.ipc.open_stream(buf)
read_batches = [b for b in reader]
read_table = pa.Table.from_batches(read_batches)

read_table.to_pandas()
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64922615

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档