我正在寻找一些关于其他人如何使用Hadoop或其他类似MapReduce的技术的一般信息。一般来说,我很好奇您是在编写MR应用程序来处理现有的数据集(比如web服务器日志文件),还是正在编写生成和处理新数据集的应用程序?
编辑:后续问题
(1)您是否曾针对其他MR程序生成的数据执行MR程序?
(2)您是否需要使用MR修改现有的数据集?
(3)您是否与其他开发人员共享过数据集?
发布于 2008-12-02 13:31:46
看看PowerdBy Hadoop的wiki,看看从Facebook到福克斯新闻,以及他们是如何使用它的例子。
发布于 2008-12-01 16:19:52
我正在分析现有的数据集,在我的例子中,程序员活动的痕迹。
发布于 2008-12-08 09:15:06
我使用hadoop作为纳奇的一部分,并用于构建/分析web图形和文本。
(1)许多工作不能一蹴而就,因此,有必要在MR生成的数据上运行MR。
(2)在使用nutch爬行时,需要对爬行数据库或其他数据进行过滤或规范化。(所以,是)
(3)到目前为止,主要是以倾倒物或某种形式造成的。到目前为止还不是“本地”的数据。
https://stackoverflow.com/questions/331291
复制相似问题