对于我们的管道,我们有大约40个主题(每个分区10-25个),我们希望在独立模式下使用HDFS 3 Sink连接器将它们写入同一个HDFS目录中(对于我们当前的设置,分布式不起作用)。我们尝试在一个连接器上运行所有主题,但如果需要重新启动,则会遇到恢复偏移量的问题。
如果我们将主题划分为不同的独立连接器,它们都能写入同一个HDFS目录吗?由于连接器然后按主题组织HDFS中的所有文件,我认为这不应该是一个问题,但我想知道是否有人有这种设置的经验。
基本示例:连接器-1配置
name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput连接器-2配置
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput发布于 2020-01-24 19:26:28
分布式不适用于我们当前的设置
您应该能够在与运行connect-distibured完全相同的节点上运行connect-standalone。
我们尝试在一个连接器上运行所有主题,但是如果需要重新启动,恢复偏移量时会遇到问题
是的,我建议不要把所有的topics捆绑在一个连接器上。
如果将主题划分为不同的独立连接器,它们都能写入同一个HDFS目录吗?
这是我个人的建议,是的,它们可以,因为HDFS路径是按主题名称命名的,而更多的是按照分区方案来划分的。
注意:以下允许适用于所有其他存储连接器(S3 & GCS)
https://stackoverflow.com/questions/59900943
复制相似问题