首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >带有散列验证的多部分上载到S3

带有散列验证的多部分上载到S3
EN

Stack Overflow用户
提问于 2017-05-05 00:49:29
回答 3查看 4.2K关注 0票数 3

我正在寻找一个命令行工具或Python库,它允许将大文件上传到S3,并进行哈希验证。

有一个AWS条款解释如何通过提供一个content-md5头来自动完成它。

然而,尚不清楚哪些命令行工具可以这样做,哪些命令行工具不这样做:

  • 克隆体的文档表明 与多部分上传一起上传的文件没有MD5SUM。
  • s3cmd没有提到这一点,但是它支持同步特性的md5
  • s4cmd在手册中有一个完整的段落,但仍然不清楚是否真的验证了上传
  • boto3 /s3 s3transfer的upload_file()方法什么也没说

您有关于这些工具中的任何一个的信息吗?或者其他一些工具、Python库或boto3片段,这些工具可以以rsync的可靠性处理大文件上传到s3?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-05-11 14:47:13

在询问了官方aws cli (boto3)工具的作者之后,我可以得出结论:aws cli 总是验证每一次上传,包括多部分工具。

它使用MD5 ETag对单个部分上传的官方验证,逐块执行。此外,您还可以启用SHA256验证,仍然是块一个块。

然而,aws cli不验证整个组装的文件。为此,您需要使用一些很小的Python函数,例如:

代码语言:javascript
复制
def calculate_s3_etag(file_path, chunk_size=8 * 1024 * 1024):
    md5s = []

    with open(file_path, 'rb') as fp:
        while True:
            data = fp.read(chunk_size)
            if not data:
                break
            md5s.append(hashlib.md5(data))

    if len(md5s) == 1:
        return '"{}"'.format(md5s[0].hexdigest())

    digests = b''.join(m.digest() for m in md5s)
    digests_md5 = hashlib.md5(digests)
    return '"{}-{}"'.format(digests_md5.hexdigest(), len(md5s))
票数 2
EN

Stack Overflow用户

发布于 2019-08-20 09:06:48

您可以使用TransferConfig为上传设置块大小,然后使用超级结发布的方法自己重新创建ETag。

代码语言:javascript
复制
from boto3.s3.transfer import TransferConfig
transfer_config = TransferConfig(multipart_chunksize=8*1024*1024)

将transfer_config传递给upload_file方法

票数 1
EN

Stack Overflow用户

发布于 2017-05-06 06:41:26

为什么不使用aws cli呢?它支持md5验证,甚至支持多部分上传。见上传部分put对象命令都支持使用哈希验证内容.

s4cmd确实使用包含md5的自定义内容头来验证上传。

至于S4cmd文档中提到的Etag计算,请参见

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43794838

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档