hadoopy hadoopy 是另外一个兼容dumbo的Streaming封装。同样,它也使用typedbytes序列化数据,并直接把 typedbytes 数据写到HDFS。 用hadoopy的时候有两种发发来启动jobs: launch 需要每个节点都已经安装了Python/hadoopy ,但是在这之后的负载就小了。 必须在Python程序中启动hadoopy job,它没有内置的命令行工具。 我写了一个脚本通过launch_frozen的方式启动hadoopy ? 用launch_frozen运行之后,我在每个节点上都安装了hadoopy然后用launch方法又运行了一遍,性能明显好得多。 dumbo和hadoopy在这方面要好一点。如果用了combiner 的话dumbo 还可以更快。 特点比较 大多来自各自软件包中的文档以及代码库。 ?
下面还是简单看一下代码吧,实现相对比较简单: 集群配置: { "clusterName":"hadoopy", "namenode":"namenode-1
提到基础设施搭建,不得不提Hadoop,很多第三方库封装了Hadoop的API接口(pydoop,hadoopy等等)。 DevOps DevOps有个中文名字,叫做开发自运维。
提到基础设施搭建,不得不提Hadoop,很多第三方库封装了Hadoop的API接口(pydoop,hadoopy等等)。 DevOps DevOps有个中文名字,叫做开发自运维。
Hadoop的开发语言是Java,没有官方提供Python支持,不过有很多第三方库封装了Hadoop的API接口(pydoop,hadoopy等等)。
要将Python与Hadoop一起使用,你可以使用以下添加包: Hadoop Streaming mrjob dumbo hadoopy pydoop ?