首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在大数据平台上“近实时”从新闻网络API中提取数据的最佳方法

在大数据平台上“近实时”从新闻网络API中提取数据的最佳方法
EN

Stack Overflow用户
提问于 2017-07-04 16:29:13
回答 1查看 300关注 0票数 0

我有一个用例,第一步是将来自新闻API或新闻聚合器API的数据摄取到HDFS中。此数据获取将在NRT的基础上进行(例如每15分钟一次),目前我正在研究两种方法:

  1. 基于Python的解决方案。(目前,它不是泛型代码)。
  2. 基于Apache NiFi的框架。(但NiFi在其他发行版上似乎存在一些兼容性问题,而不是Hortonworks)

对于一种独立于平台的方法,并且可以跨不同Hadoop分布(Cloudera、HW等)使用的方法,很少有更多的建议是很好的。

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2017-07-18 14:36:36

Apache绝对可以处理您的进程,并且它在NiFi、MacOS和大多数Linux发行版上运行良好(我已经在Ubuntu、Redhat、CentOS、Amazon和Raspbian上运行过它)。它不需要Hadoop,但可以使用Hortonworks或Cloudera发行版。

我用NiFi构建了一个RSS查看器,它使用GetHTTP -> TransformXML -> PutFile获取、提取RSS并将其保存到磁盘。然后,NiFi列表浏览器请求,并使用HandleHttpRequest -> GetFile -> TransformXML -> HandleHttpResponse将RSS作为HTML表返回。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44910649

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档