首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是StreamSets架构?

什么是StreamSets架构?
EN

Stack Overflow用户
提问于 2017-12-08 00:47:47
回答 1查看 1.1K关注 0票数 3

即使在看完教程之后,我对架构也不是很清楚。我们如何在分布式环境中扩展streamset?比方说,我们的输入数据速度从源开始增加,那么如何确保SDC不会给性能带来问题呢?将运行多少个守护进程?它是Master worker架构还是点对点架构?

如果有多个守护进程在多个机器上运行(例如,一个sdc和一个NodeManager在YARN中),那么它将如何显示数据的集中视图,即总记录数等?

另外,请让我知道数据流性能管理器的架构。此产品中有哪些所有的守护进程?

EN

回答 1

Stack Overflow用户

发布于 2017-12-09 03:24:28

StreamSets数据收集器通过对输入数据进行分区进行扩展。在某些情况下,这可以自动完成,例如,Cluster Batch mode在Hadoop / MapR集群上以MapReduce作业的形式运行SDC来读取Hadoop FS / MapR FS数据,而Cluster Streaming mode则利用Kafka分区并将SDC作为Spark流应用程序来运行,以运行与Kafka分区数量一样多的管道实例。

在其他情况下,StreamSets可以通过多线程进行扩展-例如,HTTP ServerJDBC Multitable Consumer源在单独的线程中运行多个管道实例。

在所有情况下,Dataflow Performance Manager都可以让您集中查看数据,包括总记录数。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47699877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档