我有一个NiFi流,它从CSV文件中读取文本数据,进行一些处理,然后将数据输出到JSON中的Kafka。处理步骤主要是执行重复数据删除。
以下是当前流的架构:
Read CSV files ==> Processing (deduplication) ==> Convert to JSON ==> Push to Kafka我正在考虑在读取数据后将其转换为Avro,然后进行处理。
建议的流程为:
Read CSV files ==> Convert to Avro ==> Processing (deduplication) ==> Convert to JSON ==> Push to Kafka这是否会带来任何好处,或者这只是一个无用的中间步骤?
发布于 2019-10-30 21:34:40
没有理由转换为Avro。您可以使用CSV读取器和JSON写入器配置PublishKafkaRecord,以便直接从CSV转到JSON。
https://stackoverflow.com/questions/58618036
复制相似问题