问摄食的StreamSets设计
EN

Stack Overflow用户

提问于 2018-06-11 14:31:22

回答 1查看 235关注 0票数 1

亲爱的，

我正在考虑如何在给定的通用数据中心体系结构中正确地使用Streamset：

我有几种数据类型(csv，tsv，json，来自IOT的二进制文件)，需要由CDC捕获并以as-is格式保存到Kafka主题中，然后以-is的形式进入HDFS数据湖。
然后，另一个Streamset管道将使用这个Kafka主题，并将其转换为通用格式(取决于数据类型)为JSON，并执行验证、掩蔽、元数据等操作，并保存到另一个Kafka主题。
相同的JSON消息将以Avro格式保存到HDFS数据湖中进行批处理。
然后，假设JSON数据已经准备就绪，并且可以进一步丰富其他数据，以便进行可伸缩的复杂转换，我将使用Spark来使用相同的JSON消息进行实时处理。

我没有使用Streamsets进行进一步的处理，并且依赖Spark流进行可伸缩的复杂转换，这不是SLA管理的一部分(因为Spark不是从StreamSets内部触发的)，我也不能在此设计中使用来验证JSON模式，而且JSON模式是基于嵌入到StreamSets中的定制逻辑作为Javascript进行验证的。

在上面的设计中，还有什么可以做得更好？

提前谢谢..。

streamsets

回答 1

Stack Overflow用户

发布于 2018-07-11 01:03:54

你的管道设计看起来不错。

不过，我建议使用Striim合并其中的几个步骤。

Striim已经在CDC (变更数据捕获)中建立了从你列出的所有来源加上数据库。
它有本地的kafka集成，所以您可以在同一管道中写入和读取kafka。
Striim还建立了用于浓缩的缓存和处理操作人员。这样，您就不需要编写火花代码来进行充实了。一切都是通过我们简单的UI完成的。

你可以在这里试试：

https://striim.com/instant-download

完全披露:我是Striim的一名首相。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50800157

复制

相似问题

问摄食的StreamSets设计
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问摄食的StreamSets设计EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问摄食的StreamSets设计
EN