文章/答案/技术大牛

发布

社区首页 >问答首页 >利用Hadoop设计分析系统

问利用Hadoop设计分析系统
EN

Stack Overflow用户

提问于 2014-01-10 15:36:24

回答 1查看 110关注 0票数 0

我刚刚开始了解大数据，我对Hadoop很感兴趣。我正计划建立一个简单的分析系统，以了解在我的网站上发生的某些事件。

因此，我计划使用代码(前端和后端)来触发一些事件，这些事件将对消息进行队列(很可能是使用RabbitMQ)。然后，这些消息将由消费者处理，该使用者将连续地将数据写入HDFS。然后，我可以在任何时候运行一个地图减少作业来分析当前的数据集。

我倾向于使用Amazon的Hadoop功能。所以我的问题是，在运行使用者的服务器上，如何将数据保存到HDFS？我知道有一个类似于"hadoop“的命令，但是如何跨服务器使用这个命令呢？有可用的工具吗？

有人尝试过类似的方法吗？我很想听听你的实现。细节和例子将是非常有用的。谢谢!

hadoop

amazon

analytics

bigdata

emr

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-10 22:49:18

如果您提到EMR，它将从s3存储中的一个文件夹获取输入，因此您可以使用预先设置的语言库将数据推送到s3，以便稍后使用EMR作业对其进行分析。例如，在python中可以使用博托。

甚至有一些驱动程序允许您将s3存储作为设备挂载，但不久前，所有这些驱动程序都太过错误，无法在生产系统中使用它们。也许事情已经随着时间而改变了。

EMR常见问题

问:如何将我的数据输入亚马逊S3？您可以使用Amazon将数据上载到S3 S3。或者，您可以使用许多开源或商业客户端轻松地将数据上传到Amazon。

请注意，emr (以及s3)意味着额外的成本，它的使用对于真正的大数据是合理的。还请注意，在Hadoop性能和存储成本方面，拥有相对较大的文件总是有益的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21048287

复制

相似问题

问利用Hadoop设计分析系统
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用Hadoop设计分析系统EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用Hadoop设计分析系统
EN