我读了一些关于卡夫卡和StreamSets的文章,我的理解是
现在,以下是我的问题,请帮助澄清
发布于 2019-10-01 02:34:07
1)在StreamSets中,大多数时候我们创建“数据管道”,把管道想象成一个应用程序,它可以由多个步骤/任务组成,第一个任务可以从数据库或kafka或任何数量的数据源读取数据,第二步可以修改数据,第三步可以运行脚本……最后,它可以将转换后的数据保存在一个目标中,该目标可以是数据库、AWS……Fafka和StreamSets可以一起工作,StreamSets可以从Kafka读取数据,也可以向Kafka写入数据
2)我认为Kafka是一个从多个来源收集数据的地方,并在一定时间内可供消费者使用。例如,Kafka可以定期从数据库表中读取,并将更改存储在“主题”中,定期从web服务中读取,然后将此数据存储到另一个主题中。这些主题现在对消费者可用,开发人员现在可以创建一个应用程序,从第一个主题读取数据并对数据做一些操作,Kafka可以使用偏移量跟踪消费者读取的内容,并提供复制和其他选项。它消除了编写集成多个源和目标的自定义代码的需要,相反,您可以配置此部分。
StreamSets可以对Kafka进行读写。StreamSets不会将数据存储在自己的系统中,而Kafka会将数据存储一段可配置的时间。
3) SSIS类似于StreamSets,因为它用于创建包含多个任务的管道/包,每个任务可以获取前一个任务的数据/结果,然后对其执行某些操作。StreamSets和SSIS都可以连接到多种数据源和目的地。
我个人对StreamSets和SSIS的不同之处的看法是:
发布于 2019-06-02 23:39:49
StreamSets是一个图形化工具,它包含允许数据移动的组件,这些组件恰好包括Kafka生产者和消费者,但您不需要使用它们。
它们是互补的,通过使用Kafka,您可以允许流媒体系统中的背压,或者让非StreamSets生产者/消费者与其他Kafka主题进行交互。不,Kafka不移动数据(除了内部复制),与代理交互的客户端移动。
我没有用过Informatica或SSIS,但我相信如果你联系StreamSets的人,他们会回答他们的比较
发布于 2021-01-06 01:54:29
感谢所有人,我想我必须分享一些关于我们如何看待kafka和streamset之间的规范的想法,如果我们在同一个集群中使用两者,那么我们如何区分它们。
“因为我们使用Kafka的可靠性和Streamset的简单性”
数据漂移流集消除了生产者和Consumer
https://stackoverflow.com/questions/56416005
复制相似问题