文章/答案/技术大牛

发布

社区首页 >问答首页 >http请求，带parquet和pyarrow

问http请求，带parquet和pyarrow
EN

Stack Overflow用户

提问于 2020-11-20 09:51:05

回答 1查看 283关注 0票数 0

我想使用pyarrow从rest服务器读取/查询拼图数据。目前，我正在将数据分块，转换为pandas，转储到json，然后流式传输这些数据块。像这样：

p = pq.ParquetDataset('/path/to/data.parquet', filters=filter, use_legacy_dataset=False)
batches = p._dataset.to_batches(filter=p._filter_expression)
(json.dumps(b.to_pandas().values.tolist()) for b in batches)

这实际上是相同的工作

ds = pq.ParquetDataset('/path/to/data.parquet',
                       use_legacy_dataset=False,
                       filters=filters)
df = ds.read().to_pandas()
data = pd.DataFrame(orjson.loads(orjson.dumps(df.values.tolist())))

而没有网络io。它比直接读给熊猫听要慢50倍

df = ds.read().to_pandas()

有没有一种方法可以将拼图数据集序列化为可以通过http发送并在客户端解析的二进制字符串？

parquet

pyarrow

apache-arrow

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-25 01:40:41

您可以使用箭头以内存列格式发送数据。它将比json更高效、更紧凑。但请记住，它将是二进制数据(与json不同，它不是人类可读的)。

有关完整的示例，请参阅doc。

在您的例子中，您想要这样做：

ds = pq.ParquetDataset('/path/to/data.parquet',
                       use_legacy_dataset=False,
                       filters=filters)
table = ds.read()  # pa.Table

# Write the data:
batches = table.to_batches()
sink = pa.BufferOutputStream()
writer = pa.ipc.new_stream(sink, table.schema)
for batch in batches:
    writer.write(batch)
writer.close()
buf = sink.getvalue()

# Read the data:
reader = pa.ipc.open_stream(buf)
read_batches = [b for b in reader]
read_table = pa.Table.from_batches(read_batches)

read_table.to_pandas()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64922615

复制

相似问题

问http请求，带parquet和pyarrow
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问http请求，带parquet和pyarrowEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问http请求，带parquet和pyarrow
EN