当我执行我的工作时,我看到:parquet.hadoop.ParquetFileReader: Initiating action with parallelism: 5
默认设置为5,但它是什么?我怎么才能用它来获得更好的性能呢?
发布于 2016-03-17 20:20:45
是的,默认为5。
配置参数的名称是parquet.metadata.read.parallelism。它只影响读取Parquet文件的线程数量。
我认为它对性能的影响不大,因为它只与元数据的读取有关,而不是数据本身。
https://stackoverflow.com/questions/33726400
复制相似问题