文章/答案/技术大牛

发布

社区首页 >问答首页 >使用google-cloud-storage将数据从gcs传输到s3

问使用google-cloud-storage将数据从gcs传输到s3
EN

Stack Overflow用户

提问于 2017-10-23 22:38:30

回答 2查看 2.1K关注 0票数 0

我正在制作一个小应用程序，将数据从BigQuery导出到google-cloud-storage，然后将其复制到aws s3中，但在python中如何做到这一点有困难。

我已经用kotlin编写了代码(因为这对我来说是最简单的，而且原因超出了我的问题范围，我们希望它在python中运行)，在kotlin中，google sdk允许我从Blob对象获取InputSteam，然后我可以将其注入到amazon s3 sdk's AmazonS3.putObject(String bucketName, String key, InputStream input, ObjectMetadata metadata)中。

使用python sdk，我似乎只能选择将文件下载到文件或作为字符串下载。

我希望(就像我在kotlin中所做的那样)将从Blob对象返回的一些对象传递给AmazonS3.putObject()方法，而不必首先将内容保存为文件。

我不是python专家，所以我可能错过了一种显而易见的方式来做这件事。

google-cloud-storage

boto3

python

amazon-s3

回答 2

Stack Overflow用户

发布于 2017-10-24 16:43:39

我最终采用了以下解决方案，显然是因为download_to_filename将数据下载到boto3 s3 client可以处理的类似文件的对象中。

这对于较小的文件工作得很好，但由于它将所有内容缓冲到内存中，因此对于较大的文件可能会出现问题。

def copy_data_from_gcs_to_s3(gcs_bucket, gcs_filename, s3_bucket, s3_filename):
gcs_client = storage.Client(project="my-project")

bucket = gcs_client.get_bucket(gcs_bucket)
blob = bucket.blob(gcs_filename)

data = BytesIO()
blob.download_to_file(data)
data.seek(0)

s3 = boto3.client("s3")
s3.upload_fileobj(data, s3_bucket, s3_filename)

如果任何人拥有除BytesIO以外的信息/知识来处理数据(fx。因此，我可以直接将数据流式传输到s3中，而不必将其缓冲到主机的内存中)。

票数 1

Stack Overflow用户

发布于 2018-02-01 16:55:57

可以使用Google-resumable-media从GCS和smart_open分块下载文件，并将其上传到S3。这样你就不需要把整个文件下载到内存中了。还有一个类似的问题解决了这个问题Can you upload to S3 using a stream rather than a local file?

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46892085

复制

相似问题

问使用google-cloud-storage将数据从gcs传输到s3
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用google-cloud-storage将数据从gcs传输到s3EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用google-cloud-storage将数据从gcs传输到s3
EN