在PubMed数据源中,我需要将输出推送到可以被视为卡夫卡主题的Kafka queue..Each源中。(我知道Kafka中的概念,并使用Python探索了Kafka )
我可以通过FireFTP查看PubMed数据。
有没有人能帮助我们继续前进?
发布于 2015-10-09 00:56:33
您需要使用从FTP下载数据并将其假脱机到Kafka的服务。Apache Flume就是这样做的。它很容易配置。您可以使用FTP https://github.com/keedio/flume-ftp-source的客户源文件,也可以使用cron作业将文件下载到假脱机目录,并让flume从那里拾取文件。Flume有一个非常好的kafka Sink,允许持续向Kafka写入内容。
https://stackoverflow.com/questions/32989841
复制相似问题