我想了解星火中的分区。我在windows 10的本地模式下运行星火。我的笔记本电脑有2个物理核和4个逻辑核。
术语:对我来说,火花中的核心=线程。所以星火的核心不同于物理的核心,对吗?火花核心是与任务相关的,对吗?如果是这样的话,因为您需要一个分区的线程,如果我的sparksql dataframe有4个分区,那么它需要4个线程,对吗?
如果我有4个逻辑核,这是否意味着我只能在我的笔记本电脑上同时运行4个并发线程?火花里的4号?
3/设置分区数:如何选择我的dataframe的分区数,以便进一步的转换和操作尽可能快地运行?-Should它有4个分区,因为我的笔记本电脑有4个逻辑核?-Is与物理核或逻辑核相关的分区数?-In火花文档,它写成每个CPU需要2-3个任务。由于我有两个物理coresn,那么分区的nb应该等于4还是6?
(我知道分区的数量不会对本地模式产生太大影响,但这只是为了理解)
发布于 2017-10-28 23:32:42
--executor-cores这样的选项,那么是的,这是指每个执行器将并发运行多少个任务。选择这个号码是一种尝试和错误,不过,利用spark作业服务器来监视您的任务的运行方式。每个记录的任务很少,这意味着您可能应该增加分区的数量,另一方面,每个分区只有几个记录也是不好的,在这些情况下,您应该尝试减少分区。
https://stackoverflow.com/questions/46992060
复制相似问题