我有一个用例,第一步是将来自新闻API或新闻聚合器API的数据摄取到HDFS中。此数据获取将在NRT的基础上进行(例如每15分钟一次),目前我正在研究两种方法:
对于一种独立于平台的方法,并且可以跨不同Hadoop分布(Cloudera、HW等)使用的方法,很少有更多的建议是很好的。
谢谢。
发布于 2017-07-18 14:36:36
Apache绝对可以处理您的进程,并且它在NiFi、MacOS和大多数Linux发行版上运行良好(我已经在Ubuntu、Redhat、CentOS、Amazon和Raspbian上运行过它)。它不需要Hadoop,但可以使用Hortonworks或Cloudera发行版。
我用NiFi构建了一个RSS查看器,它使用GetHTTP -> TransformXML -> PutFile获取、提取RSS并将其保存到磁盘。然后,NiFi列表浏览器请求,并使用HandleHttpRequest -> GetFile -> TransformXML -> HandleHttpResponse将RSS作为HTML表返回。
https://stackoverflow.com/questions/44910649
复制相似问题