首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为弹性MapReduce配置外部数据源

为弹性MapReduce配置外部数据源
EN

Stack Overflow用户
提问于 2012-08-29 20:00:44
回答 2查看 838关注 0票数 10

我们希望在当前的DB之上使用Amazon Elastic MapReduce (我们在EC2上使用Cassandra )。看看Amazon EMR常见问题,应该是可能的:Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?

但是,在创建新的作业流时,我们只能将S3存储桶配置为输入数据源。

有关于如何做到这一点的想法/示例吗?

谢谢!

附言:我看过这个问题How to use external data with Elastic MapReduce,但答案并没有真正解释如何做/配置它,只是说明它是可能的。

EN

回答 2

Stack Overflow用户

发布于 2013-06-24 13:46:23

您是如何处理数据的?EMR就是托管hadoop。您仍然需要编写某种类型的流程。

如果您正在编写Hadoop Mapreduce作业,那么您正在编写java,您可以使用Cassandra apis来访问它。

如果你想使用像hive这样的东西,你需要编写一个Hive存储处理程序来使用Cassandra支持的数据。

票数 1
EN

Stack Overflow用户

发布于 2013-03-27 13:53:34

尝试使用scp将文件复制到电子病历实例:

代码语言:javascript
复制
    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(或者使用ftpwgetcurl或其他任何你想要的东西)

然后使用ssh登录您的电子病历实例并将其加载到hadoop

代码语言:javascript
复制
    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12177421

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档