首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop API与.Hadoop流

Hadoop API与.Hadoop流
EN

Stack Overflow用户
提问于 2011-12-20 13:27:45
回答 5查看 1.8K关注 0票数 4

使用Streamer jar运行hadoop程序和使用程序的jar文件运行hadoop程序有什么不同?

EN

回答 5

Stack Overflow用户

发布于 2011-12-20 13:44:22

通常我们使用java编写Map/Reduce对。将数据集分割成独立块的map和结合结果执行一些有用的analysis...Hadoop流的reduce是一个实用程序,它允许我们用any language(like Ruby/Python/Bash etc.)编写能够与STDIN(for input)STDOUT(for output)一起工作的Map/Reduce应用程序。

票数 5
EN

Stack Overflow用户

发布于 2011-12-23 01:27:07

您说得对,如果不使用Java,就不会有核心的hadoop函数可用。像ChainMapper和ChainReducer这样的THings,ChainedJobs等不能通过流媒体获得。此外,由于Hadoop是用Java编写的,因此使用Java将使其速度更快。

另外,从理论上讲,在mapper完成之后不会启动reducer。您可能会在HTML中看到在移动输入的同时运行的reducers。

票数 0
EN

Stack Overflow用户

发布于 2015-07-03 12:21:31

Hadoop Streaming使我们能够使用任何支持从标准输入读取数据和写入标准输出的编程或脚本语言来编写map和reduce函数。这个特性使得Hadoop流媒体非常灵活,并且可以很容易地被大量用户使用。R、Python、C++或几乎任何其他语言。有很多参数可以自定义,例如,映射器的数量,reducers的数量,jvm内存,输入格式,输出格式等。hadoop流作业的默认输入格式是TextInputFormat,它一次读取一行数据。

Hadoop API在很大程度上将您绑定到Java,但是配置和开发更加简单,因为一切都可以从Java代码本身进行配置。根据我的经验,Java似乎更快一些,但是如果正确配置和使用正确的语言,流可以非常接近。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8571182

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档