blocks|key|724925|text|看看PowerdBy+Hadoop的wiki，看看从Facebook到福克斯新闻，以及他们是如何使用它的例子。|type|unstyled|depth|inlineStyleRanges|entityRanges|offset|length|data|724926|entityMap|0|LINK|mutability|MUTABLE|url|http://wiki.apache.org/hadoop/PoweredBy^0|2|F|0|0^^$0|@$1|2|3|4|5|6|7|L|8|@]|9|@$A|M|B|N|1|O]]|C|$]]|$1|D|3|-4|5|6|7|P|8|@]|9|@]|C|$]]]|E|$F|$5|G|H|I|C|$J|K]]]]

Checkout the <a href="http://wiki.apache.org/hadoop/PoweredBy" rel="noreferrer">PowerdBy Hadoop</a> wiki for examples of everything from Facebook to FOX News and how they are using it.

blocks|key|724919|text|我正在分析现有的数据集，在我的例子中，程序员活动的痕迹。|type|unstyled|depth|inlineStyleRanges|entityRanges|data|724920|entityMap^0|0^^$0|@$1|2|3|4|5|6|7|D|8|@]|9|@]|A|$]]|$1|B|3|-4|5|6|7|E|8|@]|9|@]|A|$]]]|C|$]]

I am analyzing existing data sets, in my case traces of programmer activity.

blocks|key|382502|text|我使用hadoop作为纳奇的一部分，并用于构建/分析web图形和文本。|type|unstyled|depth|inlineStyleRanges|entityRanges|offset|length|data|382503|(1)许多工作不能一蹴而就，因此，有必要在MR生成的数据上运行MR。|382504|(2)在使用nutch爬行时，需要对爬行数据库或其他数据进行过滤或规范化。(所以，是)|382505|(3)到目前为止，主要是以倾倒物或某种形式造成的。到目前为止还不是“本地”的数据。|382506|entityMap|0|LINK|mutability|MUTABLE|url|http://lucene.apache.org/nutch/^0|B|2|0|0|0|0|0^^$0|@$1|2|3|4|5|6|7|R|8|@]|9|@$A|S|B|T|1|U]]|C|$]]|$1|D|3|E|5|6|7|V|8|@]|9|@]|C|$]]|$1|F|3|G|5|6|7|W|8|@]|9|@]|C|$]]|$1|H|3|I|5|6|7|X|8|@]|9|@]|C|$]]|$1|J|3|-4|5|6|7|Y|8|@]|9|@]|C|$]]]|K|$L|$5|M|N|O|C|$P|Q]]]]

I have used hadoop as part of <a href="http://lucene.apache.org/nutch/" rel="nofollow noreferrer">nutch</a>, and for building/analyzing web-graphs and text

(1) Many tasks cannot be done in one go, so the need to run MR on MR-generated data is essential.

(2) When crawling with nutch, there are situations when you need to filter or normalize the crawldb or other data. (So, yes)

(3) So far mainly as dumps or results in some kind. Not as "native" MR-data so far.

blocks|key|1917638|text|一般来说，我很好奇您是在编写MR应用程序来处理现有的数据集(比如web服务器日志文件)，还是正在编写生成和处理新数据集的应用程序？|type|blockquote|depth|inlineStyleRanges|entityRanges|data|1917639|我在MR应用程序中所做的工作包括处理现有的数据集，这些数据集可以用来生成新的数据集。|unstyled|1917640|(1)您是否曾针对其他MR程序生成的数据执行MR程序？|1917641|...yes，我知道。这就是所谓的链接映射/减少操作，您可以按顺序链接多个映射和减少作业。|1917642|(2)您是否需要使用MR修改现有的数据集？|1917643|MR的思想是将现有的数据集放入其中，而不是为了处理和分析其中的信息而对其进行修改。我不得不这样做的唯一情况是将一个数据集分割成一个包。|1917644|(3)您是否与其他开发人员共享过数据集？|1917645|active+MR应用程序中涉及的许多代码与我的代码一样被认为是专有的，因此与其他开发人员共享它有点问题；如果您希望示例数据集能够与我推荐的书一起工作，那么我推荐的书籍是Pro+Hadoop+(Venner)、Hadoop+in+Action+(Lam)和Hadoop+the权威Guide+(White)。|1917646|entityMap^0|0|0|0|0|0|0|0|0^^$0|@$1|2|3|4|5|6|7|S|8|@]|9|@]|A|$]]|$1|B|3|C|5|D|7|T|8|@]|9|@]|A|$]]|$1|E|3|F|5|6|7|U|8|@]|9|@]|A|$]]|$1|G|3|H|5|D|7|V|8|@]|9|@]|A|$]]|$1|I|3|J|5|6|7|W|8|@]|9|@]|A|$]]|$1|K|3|L|5|D|7|X|8|@]|9|@]|A|$]]|$1|M|3|N|5|6|7|Y|8|@]|9|@]|A|$]]|$1|O|3|P|5|D|7|Z|8|@]|9|@]|A|$]]|$1|Q|3|-4|5|D|7|10|8|@]|9|@]|A|$]]]|R|$]]

<blockquote>
 In general, I am curious to whether you are writing MR applications to
 process existing data sets (like web server log files), or are you
 writing applications that generate and process new data sets?
</blockquote>

The work that I am doing with MR applications involves processing existing data sets that can be used to generate new data sets, which...

<blockquote>
 (1) Do you ever execute a MR program against data generated by other MR programs?
</blockquote>

...yes I do. This is known as chaining Map/Reduce operations, where you link multiple map and reduce jobs in sequence. 

<blockquote>
 (2) Do you ever need to modify existing data sets using MR?
</blockquote>

The idea of MR is to throw in your existing data set and not really have to modify it in order to process and analyze information out of it. The only case where I have had to do that is with splitting a data set into parcels.

<blockquote>
 (3) Do you ever share your data sets with other developers?
</blockquote>

A lot of the code that is involved in active MR applications is considered proprietary as is mine, so sharing it with other developers is somewhat of an issue; if you want sample data sets to work with the books that I recommend are Pro Hadoop (Venner), Hadoop in Action (Lam), and Hadoop the Definitive Guide (White).

blocks|key|725236|text|到目前为止，我的两个用途是分析大型行为数据集(收集自web、移动手机和&c)和并行处理大型问题的方法(例如，使用遗传算法在NP-完全问题空间中查找局部最优)。|type|unstyled|depth|inlineStyleRanges|entityRanges|data|725237|在一般情况下，MR流是多阶段的，所以我经常使用早期MR生成的数据。|725238|entityMap^0|0|0^^$0|@$1|2|3|4|5|6|7|F|8|@]|9|@]|A|$]]|$1|B|3|C|5|6|7|G|8|@]|9|@]|A|$]]|$1|D|3|-4|5|6|7|H|8|@]|9|@]|A|$]]]|E|$]]

My two uses so far have been analysis of large behavioral data sets (gathered from the web, mobile handsets, &amp;c) and parallelizing approaches to large problems (e.g., using genetic algorithms to find local optima in an NP-complete problem space).

In the general case, MR flows are multi-stage, so I'm frequently running against data generated by an earlier MR stage.

I'm looking for some general information about how other people are using <a href="http://hadoop.apache.org/core/" rel="noreferrer">Hadoop</a> or other MapReduce-like technologies. In general, I am curious to whether you are writing MR applications to process existing data sets (like web server log files), or are you writing applications that generate and process new data sets?

Edit:
Follow-up Questions

(1) Do you ever execute a MR program against data generated by other MR programs?

(2) Do you ever need to modify existing data sets using MR?

(3) Do you ever share your data sets with other developers?

How do you use MapReduce/Hadoop?

翻译质量差，导致语言生硬或混乱。

没有提供实际的解决方法或示例。

解答不清晰，无法理解或解决问题。

页面排版不美观，阅读体验差。

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

我正在寻找一些关于其他人如何使用或其他类似MapReduce的技术的一般信息。一般来说，我很好奇您是在编写MR应用程序来处理现有的数据集(比如web服务器日志文件)，还是正在编写生成和处理新数据集的应用程序？编辑：后续问题(1)您是否曾针对其他MR程序生成的数据执行MR程序？(2)您是否需要使用MR修改现有的数据集？(3)您是否与其他开发人员共享过数据集？

问如何使用MapReduce/Hadoop？
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用MapReduce/Hadoop？EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用MapReduce/Hadoop？
EN