首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误

在Python Pandas中使用read_parquet从AWS S3读取拼图文件时出现分割错误
EN

Stack Overflow用户
提问于 2019-09-04 23:11:05
回答 1查看 554关注 0票数 2

我有一个运行在AWS EC2上的python脚本(在AWS Linux上),这些脚本将S3中的parquet文件拉到Pandas dataframe中。我现在正在迁移到新的亚马逊网络服务帐户,并设置一个新的EC2。这一次,当在python虚拟环境中执行相同的脚本时,我得到了“分段错误”,并且执行结束。

代码语言:javascript
复制
import pandas as pd
import numpy as np
import pyarrow.parquet as pq
import s3fs
import boto3
from fastparquet import write
from fastparquet import ParquetFile

print("loading...")
df = pd.read_parquet('<my_s3_path.parquet>', engine='fastparquet')

所有软件包均已导入,所有S3和亚马逊网络服务配置均已设置。

当执行完整的脚本时,我得到:

代码语言:javascript
复制
loading...
Segmentation fault

正如你所看到的,没有太多的东西可以使用。我已经在谷歌上搜索了几个小时,我看到了很多关于这种症状的猜测和原因。我会感谢你在这里的帮助。

EN

回答 1

Stack Overflow用户

发布于 2019-09-05 15:04:24

我能够通过更改使用的引擎参数来解决这个问题。根据pandas的官方文档,这些是引擎选项:

引擎:{‘auto’,‘pyarrow’,‘fastparquet’},默认为‘auto’

因此,只需更改为“auto”,问题就解决了。

代码语言:javascript
复制
df = pd.read_parquet('<my_s3_path.parquet>')
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57791287

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档