问spark.sql.hive.filesourcePartitionFileCacheSize
EN

Stack Overflow用户

提问于 2018-01-10 19:58:11

回答 1查看 10.8K关注 0票数 3

只是想知道有没有人知道这个警告信息

18/01/10 19:52:56 WARN SharedInMemoryCache: Evicting cached table partition metadata from memory due to size constraints
(spark.sql.hive.filesourcePartitionFileCacheSize = 262144000 bytes). This may impact query planning performance

我在尝试从S3加载一些包含许多分区的大型数据文件时，已经看到了很多这种情况。

它从来没有真正引起任何问题的工作，只是想知道什么是使用配置属性和如何正确地调优它。

谢谢

apache-spark

pyspark

回答 1

Stack Overflow用户

发布于 2018-01-11 08:32:18

在回答您的问题时，这是一个特定于星火蜂巢的配置属性，当为非零时，它启用内存中分区文件元数据的缓存。所有表共享一个缓存，该缓存可以使用指定的num字节作为文件元数据。此conf仅在启用hive分区管理时才有效果。

在星星之火源代码中，编写如下所示。默认大小是250 * 1024 * 1024 *1024，根据代码，您可以在代码/火花提交命令中尝试由SparkConf对象操作。

火花源代码

val HIVE_FILESOURCE_PARTITION_FILE_CACHE_SIZE =
    buildConf("spark.sql.hive.filesourcePartitionFileCacheSize")
      .doc("When nonzero, enable caching of partition file metadata in memory. All tables share " +
           "a cache that can use up to specified num bytes for file metadata. This conf only " +
           "has an effect when hive filesource partition management is enabled.")
      .longConf
      .createWithDefault(250 * 1024 * 1024)

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48195147

复制

相似问题

问spark.sql.hive.filesourcePartitionFileCacheSize
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spark.sql.hive.filesourcePartitionFileCacheSizeEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spark.sql.hive.filesourcePartitionFileCacheSize
EN