首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在PySpark中读取具有不同身份验证令牌的两个文件

在PySpark中读取具有不同身份验证令牌的两个文件
EN

Stack Overflow用户
提问于 2020-11-02 18:11:31
回答 1查看 31关注 0票数 0

我使用PySpark将几个文件读入数据帧,并执行它们的联合。因为这两个文件具有不同的权限授予,所以我使用org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider来读取这两个文件。但是,当我尝试读取第二个文件(我可以单独读取这两个文件中的任何一个,但不能一起读取)时,我得到一个错误。

读取文件的代码:

代码语言:javascript
复制
def read_file(file_path, file_id):
    aws_tokens = get_aws_tokens_for_file(file_id)
    spark._jsc.hadoopConfiguration().set('fs.s3a.access.key', aws_access_key)
    spark._jsc.hadoopConfiguration().set('fs.s3a.secret.key', aws_secret_key)
    spark._jsc.hadoopConfiguration().set('fs.s3a.session.token', aws_session_token)
    spark._jsc.hadoopConfiguration().set('fs.s3a.connection.ssl.enabled', 'true')
    spark._jsc.hadoopConfiguration().set("fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider")
    df = spark.read.parquet(file_path)
    return df

现在,下面的代码在两个不同的pyspark-session中工作:

代码语言:javascript
复制
df1 = read_file(file_1_path, file_1_id)
代码语言:javascript
复制
df2 = read_file(file_2_path, file_2_id)

但是,当我尝试执行以下操作时,它会失败,并显示java.nio.file.AccessDeniedException

代码语言:javascript
复制
df1 = read_file(file_1_path, file_1_id)
df2 = read_file(file_2_path, file_2_id)
df3 = df1.union(df2)
print(df3.count())

其中一个原因可能是,只有在执行操作时才实际从s3读取文件,并且当执行该操作时,两个文件所需的aws-credentials是不同的。

因此,我尝试持久化第一个文件,然后读取第二个文件,但失败了,也出现了相同的异常:

代码语言:javascript
复制
df1 = read_file(file_1_path, file_1_id)
_ = df1.persist(StorageLevel.MEMORY_AND_DISK).count()

df2 = read_file(file_2_path, file_2_id) #fails here itself

那么,我如何执行两个需要不同aws身份验证凭据的此类文件的联合?

EN

回答 1

Stack Overflow用户

发布于 2020-11-02 20:21:00

Spark执行按需计算,包括读取数据。S3A FileSystem类的实例将由存储桶URI too...changing缓存,只有当存储桶不同时,配置才会生效。

您可以使用每个存储桶设置来更改不同s3存储桶的凭据/凭据提供程序。如果您的数据位于不同的存储桶中,这应该是可行的。有关细节,请参阅hadoop s3文档。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64643503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档