我想使用pyarrow从rest服务器读取/查询拼图数据。目前,我正在将数据分块,转换为pandas,转储到json,然后流式传输这些数据块。像这样:
p = pq.ParquetDataset('/path/to/data.parquet', filters=filter, use_legacy_dataset=False)
batches = p._dataset.to_batches(filter=p._filter_expression)
(json.dumps(b.to_pandas().values.tolist()) for b in batches)这实际上是相同的工作
ds = pq.ParquetDataset('/path/to/data.parquet',
use_legacy_dataset=False,
filters=filters)
df = ds.read().to_pandas()
data = pd.DataFrame(orjson.loads(orjson.dumps(df.values.tolist())))而没有网络io。它比直接读给熊猫听要慢50倍
df = ds.read().to_pandas()有没有一种方法可以将拼图数据集序列化为可以通过http发送并在客户端解析的二进制字符串?
发布于 2020-11-25 01:40:41
您可以使用箭头以内存列格式发送数据。它将比json更高效、更紧凑。但请记住,它将是二进制数据(与json不同,它不是人类可读的)。
有关完整的示例,请参阅doc。
在您的例子中,您想要这样做:
ds = pq.ParquetDataset('/path/to/data.parquet',
use_legacy_dataset=False,
filters=filters)
table = ds.read() # pa.Table
# Write the data:
batches = table.to_batches()
sink = pa.BufferOutputStream()
writer = pa.ipc.new_stream(sink, table.schema)
for batch in batches:
writer.write(batch)
writer.close()
buf = sink.getvalue()
# Read the data:
reader = pa.ipc.open_stream(buf)
read_batches = [b for b in reader]
read_table = pa.Table.from_batches(read_batches)
read_table.to_pandas()https://stackoverflow.com/questions/64922615
复制相似问题