正在发生的事情:在连接flink中的两个数据集时遇到了以下错误:
Hash join exceeded maximum number of recursions, without reducing partitions enough to be memory resident. Probably cause: Too many duplicate keys.我有两个数据集,一个大的和一个小的,所以我使用了join.Hint as Repartition哈希第二,但我仍然面临同样的问题。
有人能解释一下这一异常的根本原因吗?
发布于 2019-12-16 03:08:38
当"jion“发生在小型和大型数据集中时,可能会发生数据倾斜。会有很多重新规划,我觉得你的问题可能与此有关。
https://stackoverflow.com/questions/59275936
复制相似问题