我有一个运行在AWS EC2上的python脚本(在AWS Linux上),这些脚本将S3中的parquet文件拉到Pandas dataframe中。我现在正在迁移到新的亚马逊网络服务帐户,并设置一个新的EC2。这一次,当在python虚拟环境中执行相同的脚本时,我得到了“分段错误”,并且执行结束。
import pandas as pd
import numpy as np
import pyarrow.parquet as pq
import s3fs
import boto3
from fastparquet import write
from fastparquet import ParquetFile
print("loading...")
df = pd.read_parquet('<my_s3_path.parquet>', engine='fastparquet')所有软件包均已导入,所有S3和亚马逊网络服务配置均已设置。
当执行完整的脚本时,我得到:
loading...
Segmentation fault正如你所看到的,没有太多的东西可以使用。我已经在谷歌上搜索了几个小时,我看到了很多关于这种症状的猜测和原因。我会感谢你在这里的帮助。
发布于 2019-09-05 15:04:24
我能够通过更改使用的引擎参数来解决这个问题。根据pandas的官方文档,这些是引擎选项:
引擎:{‘auto’,‘pyarrow’,‘fastparquet’},默认为‘auto’
因此,只需更改为“auto”,问题就解决了。
df = pd.read_parquet('<my_s3_path.parquet>')https://stackoverflow.com/questions/57791287
复制相似问题