以下两种情况下的性能有什么不同,一种是在执行和存储的情况下对成本进行优化。
发布于 2020-09-17 11:37:15
好的-如果您想尽可能多地使用雪花平台的功能(推倒优化),那么您需要首先尽可能高效地将数据导入雪花,然后针对它运行SQL查询(连接、筛选、聚合器等)。使用“复制”将S3/Azure/Google文件移动到雪花表中,然后运行INSERT.针对这些进行选择。
没有理由创建外部表,如果您创建了外部表,它的性能将比我建议的方法糟糕得多。
外部表-简短说明
为了简单起见,让我们假设您的雪花实例运行在AWS上,并且在S3桶中也有一些文件。
所有雪花数据都是由雪花存储在S3中的,但都是压缩和优化格式的。雪花保存关于数据的位置和内容的元数据,这些元数据允许它将数据表示为表/列。
外部表基本上是完全相同的:雪花保存关于您的S3桶中的文件的元数据,允许它将数据表示为表/列。差异在于:
外部数据没有被压缩/优化,因此它占用更多的存储空间,而且query
希望这能帮上忙?
https://stackoverflow.com/questions/63932394
复制相似问题