首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >spark.sql.hive.filesourcePartitionFileCacheSize

spark.sql.hive.filesourcePartitionFileCacheSize
EN

Stack Overflow用户
提问于 2018-01-10 19:58:11
回答 1查看 10.8K关注 0票数 3

只是想知道有没有人知道这个警告信息

代码语言:javascript
复制
18/01/10 19:52:56 WARN SharedInMemoryCache: Evicting cached table partition metadata from memory due to size constraints
(spark.sql.hive.filesourcePartitionFileCacheSize = 262144000 bytes). This may impact query planning performance

我在尝试从S3加载一些包含许多分区的大型数据文件时,已经看到了很多这种情况。

它从来没有真正引起任何问题的工作,只是想知道什么是使用配置属性和如何正确地调优它。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2018-01-11 08:32:18

在回答您的问题时,这是一个特定于星火蜂巢的配置属性,当为非零时,它启用内存中分区文件元数据的缓存。所有表共享一个缓存,该缓存可以使用指定的num字节作为文件元数据。此conf仅在启用hive分区管理时才有效果。

在星星之火源代码中,编写如下所示。默认大小是250 * 1024 * 1024 *1024,根据代码,您可以在代码/火花提交命令中尝试由SparkConf对象操作。

火花源代码

代码语言:javascript
复制
val HIVE_FILESOURCE_PARTITION_FILE_CACHE_SIZE =
    buildConf("spark.sql.hive.filesourcePartitionFileCacheSize")
      .doc("When nonzero, enable caching of partition file metadata in memory. All tables share " +
           "a cache that can use up to specified num bytes for file metadata. This conf only " +
           "has an effect when hive filesource partition management is enabled.")
      .longConf
      .createWithDefault(250 * 1024 * 1024)
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48195147

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档