首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >摄食的StreamSets设计

摄食的StreamSets设计
EN

Stack Overflow用户
提问于 2018-06-11 14:31:22
回答 1查看 235关注 0票数 1

亲爱的,

我正在考虑如何在给定的通用数据中心体系结构中正确地使用Streamset:

  • 我有几种数据类型(csv,tsv,json,来自IOT的二进制文件),需要由CDC捕获并以as-is格式保存到Kafka主题中,然后以-is的形式进入HDFS数据湖。
  • 然后,另一个Streamset管道将使用这个Kafka主题,并将其转换为通用格式(取决于数据类型)为JSON,并执行验证、掩蔽、元数据等操作,并保存到另一个Kafka主题。
  • 相同的JSON消息将以Avro格式保存到HDFS数据湖中进行批处理。
  • 然后,假设JSON数据已经准备就绪,并且可以进一步丰富其他数据,以便进行可伸缩的复杂转换,我将使用Spark来使用相同的JSON消息进行实时处理。

我没有使用Streamsets进行进一步的处理,并且依赖Spark流进行可伸缩的复杂转换,这不是SLA管理的一部分(因为Spark不是从StreamSets内部触发的),我也不能在此设计中使用来验证JSON模式,而且JSON模式是基于嵌入到StreamSets中的定制逻辑作为Javascript进行验证的。

在上面的设计中,还有什么可以做得更好?

提前谢谢..。

EN

回答 1

Stack Overflow用户

发布于 2018-07-11 01:03:54

你的管道设计看起来不错。

不过,我建议使用Striim合并其中的几个步骤。

  • Striim已经在CDC (变更数据捕获)中建立了从你列出的所有来源加上数据库。
  • 它有本地的kafka集成,所以您可以在同一管道中写入和读取kafka。
  • Striim还建立了用于浓缩的缓存和处理操作人员。这样,您就不需要编写火花代码来进行充实了。一切都是通过我们简单的UI完成的。

你可以在这里试试:

https://striim.com/instant-download

完全披露:我是Striim的一名首相。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50800157

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档