我想了解如何使用StreamSets数据收集器。执行Streamsets管道时会发生什么?
它是否具有分布式执行、主进程和辅助进程?主进程和辅助进程的哪些组件响应?里面是什么?我阅读了文档-例如https://streamsets.com/documentation/controlhub/3.3.2/installhelp/controlhub/InstallationGuide/InstallationOverview/Architecture.html,Apache Flink使用ActorSystems。找不到资料,你能帮我吗?
发布于 2020-03-13 00:19:33
StreamSets Data Collector是一个具有web前端的单一Java应用程序。您设计了一个管道,并将其保存为JSON。当您运行管道时,执行引擎(同一Java应用程序的一部分)加载JSON表示,从已配置的数据源将数据读取到内存中,根据已配置的处理器在内存中操作数据,并将其写入一个或多个目的地。
StreamSets Control Hub提供了一个集中式web前端,您可以在其中再次设计您的管道,但在这种情况下,您可以将一个或多个数据收集器连接到控制中心,并根据您的配置将作业分派到数据收集器实例。例如,在控制中心中,您可以启动一个作业,以在具有dev标签的2个数据收集器实例上执行管道。Control Hub还包含一个中央的、版本化的流水线存储库,并允许您组成由多个流水线组成的拓扑,每个流水线提供下一个。
https://stackoverflow.com/questions/60634401
复制相似问题