首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >智能分层问题

智能分层问题
EN

Stack Overflow用户
提问于 2022-09-14 20:54:15
回答 1查看 40关注 0票数 0

我希望在我们已经做过的事情上得到别人的看法,并开始意识到这不是最好的主意。

以下是关于我们的“环境”的一些信息:

  • 帐户A:我们有一个AWS帐户,充当一个数据湖(我们每天将事务数据上传到S3 )
  • 帐户B:我们有另一个AWS帐户,我们的业务伙伴使用它来访问帐户A中的数据

几个月前,我们在S3中启用了智能Tiering,其中对象分别在90天和180天内被移动到Archive和respectively。我们现在看到了这一决定的失败。OUr业务合作伙伴无法查询3个月前在雅典娜(帐户B)的数据(帐户A)。哇哦。

我想我们不理解智能分层的目的,并希望雅典娜能够在查询数据时将分层对象移回标准的s3 (如在即时检索中)。

在审查智能分层过程中,肯定有一些用例我们忽略了。

我很好奇其他人是如何利用智能分层的?您是否只将业务伙伴不需要的分层对象作为“即时检索”?

EN

回答 1

Stack Overflow用户

发布于 2022-09-14 22:08:47

如果您的目标是降低存储成本,那么研究和理解Amazon提供的各种存储类是值得的。

它们一般可分为三类:

  • 即时可用:--这是“标准”类
  • 即时可用,存储成本较低,但检索成本较高:--这是“罕见访问”类。对于每月只能访问一次或更少的数据,它们可能更便宜。如果更频繁地访问它们,那么请求费用就会超过存储成本的节省。
  • 归档:,这是典型的冰川类。如果你想使用亚马逊雅典娜,就避开它们。

见表on:比较Amazon的S3存储类

对于用例,可以考虑在默认情况下将数据保存在中(因为数据被大量访问),然后将90天以上的数据移动到S3 One Zone --罕见的Access。它仍然是可访问的,但如果很少使用,它的存储成本将更低。

我还建议将您的数据转换为Snappy压缩的Parquet格式(最好是分区的),这将减少所需的存储量,并允许雅典娜选择性地选择它需要访问的对象。它还将使雅典娜跑得更快,并降低雅典娜查询的成本。

请参阅:亚马逊雅典娜AWS大数据博客十大性能调优技巧

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73723067

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档