文章/答案/技术大牛

发布

社区首页 >问答首页 >为弹性MapReduce配置外部数据源

问为弹性MapReduce配置外部数据源
EN

Stack Overflow用户

提问于 2012-08-29 20:00:44

回答 2查看 838关注 0票数 10

我们希望在当前的DB之上使用Amazon Elastic MapReduce (我们在EC2上使用Cassandra )。看看Amazon EMR常见问题，应该是可能的：Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?

但是，在创建新的作业流时，我们只能将S3存储桶配置为输入数据源。

有关于如何做到这一点的想法/示例吗？

谢谢!

附言:我看过这个问题How to use external data with Elastic MapReduce，但答案并没有真正解释如何做/配置它，只是说明它是可能的。

amazon-web-services

cassandra

elastic-map-reduce

回答 2

Stack Overflow用户

发布于 2013-06-24 13:46:23

您是如何处理数据的？EMR就是托管hadoop。您仍然需要编写某种类型的流程。

如果您正在编写Hadoop Mapreduce作业，那么您正在编写java，您可以使用Cassandra apis来访问它。

如果你想使用像hive这样的东西，你需要编写一个Hive存储处理程序来使用Cassandra支持的数据。

票数 1

Stack Overflow用户

发布于 2013-03-27 13:53:34

尝试使用scp将文件复制到电子病历实例：

    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(或者使用ftp、wget、curl或其他任何你想要的东西)

然后使用ssh登录您的电子病历实例并将其加载到hadoop中

    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12177421

复制

相似问题

问为弹性MapReduce配置外部数据源
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为弹性MapReduce配置外部数据源EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为弹性MapReduce配置外部数据源
EN