文章/答案/技术大牛

发布

社区首页 >问答首页 >在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误

问在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误
EN

Stack Overflow用户

提问于 2019-09-04 23:11:05

回答 1查看 554关注 0票数 2

我有一个运行在AWS EC2上的python脚本(在AWS Linux上)，这些脚本将S3中的parquet文件拉到Pandas dataframe中。我现在正在迁移到新的亚马逊网络服务帐户，并设置一个新的EC2。这一次，当在python虚拟环境中执行相同的脚本时，我得到了“分段错误”，并且执行结束。

import pandas as pd
import numpy as np
import pyarrow.parquet as pq
import s3fs
import boto3
from fastparquet import write
from fastparquet import ParquetFile

print("loading...")
df = pd.read_parquet('<my_s3_path.parquet>', engine='fastparquet')

所有软件包均已导入，所有S3和亚马逊网络服务配置均已设置。

当执行完整的脚本时，我得到：

loading...
Segmentation fault

正如你所看到的，没有太多的东西可以使用。我已经在谷歌上搜索了几个小时，我看到了很多关于这种症状的猜测和原因。我会感谢你在这里的帮助。

pandas

amazon-web-services

fastparquet

python

回答 1

Stack Overflow用户

发布于 2019-09-05 15:04:24

我能够通过更改使用的引擎参数来解决这个问题。根据pandas的官方文档，这些是引擎选项：

引擎：{‘auto’，‘pyarrow’，‘fastparquet’}，默认为‘auto’

因此，只需更改为“auto”，问题就解决了。

df = pd.read_parquet('<my_s3_path.parquet>')

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57791287

复制

相似问题

问在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误
EN