如何从mysql导入数据到HDFS。我不能使用sqoop,因为它是HDFS安装,而不是cloudera。我使用下面的链接来设置HDFS。我的hadoop版本是0.20.2 http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
发布于 2012-06-11 20:50:53
除了sqoop之外,您还可以尝试hiho。我听说过关于它的好话。(虽然从未使用过)
但我看到的大多数情况是,人们最终会编写自己的流程来实现这一点。如果hiho不起作用,你可以使用mysqlimport从MySql转储数据。然后使用map-reduce作业或Pig/Hive加载到HDFS中。
我听说Sqoop非常好并且被广泛使用(这也是传闻,我自己从来没有用过它)。现在有了it is an apache incubator project,我认为它可能已经开始支持hadoop的apache版本,或者至少可以减少非cloudera版本的痛苦。The doc说它支持Apache Hadoopv0.21。尝试让它与您的hadoop版本一起工作。这可能并不是那么困难。
发布于 2012-06-11 21:24:54
与您的问题没有直接关系,但是如果您想使用数据库作为Map Reduce作业的输入,并且不想复制到HDFS,则可以使用DBInputFormat直接从数据库输入。
https://stackoverflow.com/questions/10980262
复制相似问题