我使用的是VM,我的集群由3个任务管理器组成,主任务管理器也是jobmanager和taskmanager (4个任务管理器和一个作业管理器),所以当我运行jar文件时,它只使用了一个插槽,而我有4个插槽,大约一个插槽用于一个任务管理器,我不知道为什么框架不使用所有可用的插槽。我想知道数据集应该在每个任务管理器中吗?
发布于 2020-01-04 03:08:32
您的问题的答案在一定程度上取决于您使用的集群管理器(例如,yarn、mesos、kubernetes或standalone),但通常Flink不支持自动伸缩,因此您需要显式配置所需的并行性。您可以在作业的源代码中、在flink-conf.yaml中或在命令行中执行此操作。如果您不这样做,那么您的作业将以默认的并行度运行。
至于应该将数据放在哪里,flink应用程序将使用源连接器读取数据。如果您使用文件系统作为数据源,那么每个任务管理器都需要能够使用相同的文件系统URI读取数据--这最好通过使用分布式文件系统来实现。
https://stackoverflow.com/questions/59583817
复制相似问题