一篇名为http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html的博客文章建议从Hadoop集群中调用外部系统(查询twitter API或爬行网页)。
对于我目前正在开发的系统,既有快速子系统,也有慢速(批量)子系统。数据是从推特的-also接口中获取的,用于快速、单独的检索。这可能是每天数十万(甚至数百万)的外部请求。网页的内容也被检索以供进一步处理-至少具有相同的请求规模。
除了对外部源的潜在副作用(更改数据以使其在下一个请求中不同),以这种方式使用Hadoop的优缺点是什么?它是一种有效且有用的批量和/或快速检索数据的方法吗?
发布于 2011-06-02 02:50:10
优点:这是一种非常简单的方式来分配需要完成的工作。
缺点:由于Hadoop从故障中恢复的方式,您需要非常小心地管理正在运行和未运行的内容(您绝对可以做到这一点,只是需要注意)。例如,如果reduce失败,那么为该分区提供数据的所有map作业也必须重新运行。显然,这很可能是一个非reducer作业,但这仍然适用于mappers...what发生如果一半的调用运行,那么作业失败,所以它被重新调度?
您可以使用某种高吞吐量系统来管理实际发出的呼叫或诸如此类的呼叫。但它绝对可以适当地用于这一点。
https://stackoverflow.com/questions/6206105
复制相似问题