首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >IaaS对象存储的重复和成本节约(S3/Azure Blobs)

IaaS对象存储的重复和成本节约(S3/Azure Blobs)
EN

Server Fault用户
提问于 2016-12-22 17:18:49
回答 2查看 4K关注 0票数 4

是否有任何商业IaaS对象存储(S3、Azure Blobs等)避免多次收费存储重复数据(相同的文件,或部分文件)?例如,我们有一个15 TB的tweet数据集,我们的一个团队希望复制一份,然后对数据做一些修改。30 TB的储藏室要收费吗?

是否有一种好的方法可以在这些大型对象存储中找到重复块,或者就地压缩大型数据集?我们能用某种符号链接替换重复的文件吗?

EN

回答 2

Server Fault用户

发布于 2016-12-22 19:12:07

存储提供商(至少AWS、Google和Microsoft)不会对blob对象进行重复和/或压缩。这会导致不可预测的延迟,增加抖动和增加内存消耗。这并不是说在这种情况下不可能实现良好的计费策略,并且在多个服务器/可用性区域之间重复对象是一个巨大的技术挑战。

您可以在您的端实现压缩。去重复很难,因为您需要使用哈希表来维护中间件,等等。

另一种方法可能是在EC2实例上使用ZFS而不是S3。您可以附加EBS卷并将它们作为ZFS卷挂载,并且ZFS具有内置的压缩和去重复功能。如果在多个EC2实例上需要这些文件/对象,则始终可以作为NFS共享导出和导入ZFS。重复再一次需要额外的RAM。

票数 5
EN

Server Fault用户

发布于 2016-12-30 09:56:45

您可以使用现场去重复,这可以通过一些备份解决方案(例如https://www.veeam.com/hyper-v-vmware-backup-deduplication-compression.html )来执行,并将数据压缩到云中,从而节省了网络带宽。它可能是有用的,特别是如果及时恢复是至关重要的。

我们已经有相当多的VM运行在我们的生产atm,并使用Veeam和星风,所以我认为这是一个类似的情况。还测试了其他解决方案,例如MS和Backup,但是Veeam显示了更好的结果。

票数 5
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/822312

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档