我们目前在组织中使用Apache Hadoop (Vanilla版本)。我们计划迁移到AWS EMR。我正在尝试了解AWS EMR Hadoop的内部工作原理(不是如何使用它),我主要对Hadoop管理步骤以及主从如何通信以及各种配置配置感兴趣。我已经检查了AWS EMR文档,但没有看到详细的比较。
有人能推荐我一个从Apache Hadoop迁移到AWS EMR的链接/教程吗?
发布于 2020-05-06 09:06:35
在EMR集群创建过程中,会要求您指定Master和Node。默认设置将为您提供1个主服务器和2个节点。您还可以指定希望集群中的所有应用程序(例如: hadoop、hive、spark、zeppelin、hue等)。
一旦创建了集群,它将提供所有服务。您可以单击这些服务并通过web访问它们,或者使用ssh进入主服务器。例如:要访问ambari界面,请转到EMR中的服务并单击它。将启动一个带有ambari监控服务界面的新窗口。
安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。
发布于 2015-05-28 19:12:52
Amazon Elastic Hadoop使用MapReduce和相关工具的基本标准实现。
请参阅:AMI Versions Supported in Amazon EMR
使用EMR的好处在于实例的自动部署。例如,使用适当的AMI启动集群意味着已经在每个实例上加载了软件,并且跨核心节点配置了HDFS。
主节点和从节点(核心/任务)的通信方式与它们在任何Hadoop集群中的通信方式完全相同。但是,只支持一个Master (没有backup Master)。
迁移到EMR时,请检查您使用的是兼容版本的软件(例如Hadoop、Hive、Pig、Impala等)。还可以考虑使用Amazon来存储数据,而不是使用S3,尤其是存储源数据时,因为即使在EMR集群终止之后,S3上的数据仍然存在。
发布于 2021-11-07 23:38:54
从技术上讲,随EMR提供的Hadoop可能只有几个版本。您应该查看EMR发行说明,了解随每个版本提供的详细应用程序。EMR负责应用程序的配置、设置和配置。根据EC2实例类型,Hadoop (和其他应用程序配置)会发生变化。您可以使用配置应用程序覆盖默认设置。
除此之外,您的本地Hadoop和EMR应该是相同的。
https://stackoverflow.com/questions/30449546
复制相似问题