我们希望在当前的DB之上使用Amazon Elastic MapReduce (我们在EC2上使用Cassandra )。看看Amazon EMR常见问题,应该是可能的:Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?
但是,在创建新的作业流时,我们只能将S3存储桶配置为输入数据源。
有关于如何做到这一点的想法/示例吗?
谢谢!
附言:我看过这个问题How to use external data with Elastic MapReduce,但答案并没有真正解释如何做/配置它,只是说明它是可能的。
发布于 2013-06-24 13:46:23
您是如何处理数据的?EMR就是托管hadoop。您仍然需要编写某种类型的流程。
如果您正在编写Hadoop Mapreduce作业,那么您正在编写java,您可以使用Cassandra apis来访问它。
如果你想使用像hive这样的东西,你需要编写一个Hive存储处理程序来使用Cassandra支持的数据。
发布于 2013-03-27 13:53:34
尝试使用scp将文件复制到电子病历实例:
my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file(或者使用ftp、wget、curl或其他任何你想要的东西)
然后使用ssh登录您的电子病历实例并将其加载到hadoop中
my-desktop-box$ ssh my-emr-node
my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/filehttps://stackoverflow.com/questions/12177421
复制相似问题