如何使用spring-xd批处理任务将kafka中的数据摄取到hdfs?我想有一个批处理作业,计划运行一天一次。如何在kafka中跟踪偏移量?
发布于 2015-05-19 06:33:53
我假设流设置kafka | hdfs对您没有帮助,因为您希望将其作为批处理作业运行,以便可以作为批处理作业进行编排。
在这种情况下,可以运行kafka -> hdfs的开箱即用的XD批处理作业模块还不可用。您可以实现自定义批处理作业模块。
为了读取kafka消息,您需要一个从Kafka代理读取Kafka消息的ItemReader实现。请参阅AMQPItemReader中的类似方法:
看一下spring-integration-kafka会对Kafka的具体实现有所帮助:https://github.com/spring-projects/spring-integration-kafka
为了将数据写入HDFS,XD已经有了org.springframework.xd.batch.item.hadoop.HdfsTextItemWriter。
任何现有的写入HDFS的XD批处理作业模块都可以帮助您实现这一点。请随意打开JIRA,欢迎您的贡献。
https://stackoverflow.com/questions/30306275
复制相似问题