即使在看完教程之后,我对架构也不是很清楚。我们如何在分布式环境中扩展streamset?比方说,我们的输入数据速度从源开始增加,那么如何确保SDC不会给性能带来问题呢?将运行多少个守护进程?它是Master worker架构还是点对点架构?
如果有多个守护进程在多个机器上运行(例如,一个sdc和一个NodeManager在YARN中),那么它将如何显示数据的集中视图,即总记录数等?
另外,请让我知道数据流性能管理器的架构。此产品中有哪些所有的守护进程?
发布于 2017-12-09 03:24:28
StreamSets数据收集器通过对输入数据进行分区进行扩展。在某些情况下,这可以自动完成,例如,Cluster Batch mode在Hadoop / MapR集群上以MapReduce作业的形式运行SDC来读取Hadoop FS / MapR FS数据,而Cluster Streaming mode则利用Kafka分区并将SDC作为Spark流应用程序来运行,以运行与Kafka分区数量一样多的管道实例。
在其他情况下,StreamSets可以通过多线程进行扩展-例如,HTTP Server和JDBC Multitable Consumer源在单独的线程中运行多个管道实例。
在所有情况下,Dataflow Performance Manager都可以让您集中查看数据,包括总记录数。
https://stackoverflow.com/questions/47699877
复制相似问题