我正致力于在我们的企业中建立一个生产Hadoop/Spark集群,但我首先要做一些测试。为了得到一些语义学:
生产操作系统: RHEL 7 CPU: 8核RAM: 64 12节点数:12类型: VMs
这些生产节点都是VM,给出了1tb的数据空间,这是/ data /的挂载。每个系统目录都有自己的文件系统,例如/var/有自己的文件系统,/usr/ and /有自己的文件系统,并且在大小/空间上受到限制。因此,我正在确定每个文件系统需要多少才能完成一个完整的堆栈安装。我过会儿再谈这个。
现在,我正在DEV盒上测试这一点,我有一个框设置作为管理节点,另一个框作为部署节点。我在这里的目标是测试对单个节点的完全部署,以确定在部署到生产之前可能存在的问题。DEV节点和PROD节点之间唯一的区别是DEV节点为RHEL 6,数据目录为/hadoopdata01 01/,DEV框为4核和16 of。再说一遍,这只是为了测试,所以我不需要它来实际工作,我只是想通过安装和部署。
我可以安装ambari服务器,并在管理节点上正常工作。我在两个节点之间设置了所有的无密码SSH,这两台机器上的OpenJDK都是Java1.8,回购程序已经在这两个盒子上安装了。为了安全起见,我已经禁用了SELINUX和禁用了IPTABLES
在那里,我注册了节点,该节点运行良好,并完成所有步骤,然后单击deploy按钮。在Analyzer安装30分钟(1800秒)后,它似乎冻结在4%,并在下列情况下超时:
stderr:
Python script has been killed due to timeout after waiting 1800 secs
stdout:
2017-08-28 17:11:02,665 - Stack Feature Version Info: stack_version=2.6, version=None, current_cluster_version=None -> 2.6
2017-08-28 17:11:02,666 - Using hadoop conf dir: /usr/hdp/current/hadoop-client/conf
User Group mapping (user_group) is missing in the hostLevelParams
2017-08-28 17:11:02,667 - Group['hadoop'] {}
2017-08-28 17:11:02,669 - Group['users'] {}
2017-08-28 17:11:02,669 - User['zookeeper'] {'gid': 'hadoop', 'fetch_nonlocal_groups': True, 'groups': ['hadoop']}
2017-08-28 17:11:02,671 - Adding user User['zookeeper']
2017-08-28 17:11:05,724 - User['ams'] {'gid': 'hadoop', 'fetch_nonlocal_groups': True, 'groups': ['hadoop']}
2017-08-28 17:11:05,726 - Adding user User['ams']
2017-08-28 17:11:05,817 - User['ambari-qa'] {'gid': 'hadoop', 'fetch_nonlocal_groups': True, 'groups': ['users']}
2017-08-28 17:11:05,819 - Adding user User['ambari-qa']
2017-08-28 17:11:05,915 - User['hdfs'] {'gid': 'hadoop', 'fetch_nonlocal_groups': True, 'groups': ['hadoop']}
2017-08-28 17:11:05,916 - Adding user User['hdfs']
2017-08-28 17:11:06,049 - File['/var/lib/ambari-agent/tmp/changeUid.sh'] {'content': StaticFile('changeToSecureUid.sh'), 'mode': 0555}
2017-08-28 17:11:06,051 - Execute['/var/lib/ambari-agent/tmp/changeUid.sh ambari-qa /tmp/hadoop-ambari-qa,/tmp/hsperfdata_ambari-qa,/home/ambari-qa,/tmp/ambari-qa,/tmp/sqoop-ambari-qa'] {'not_if': '(test $(id -u ambari-qa) -gt 1000) || (false)'}
2017-08-28 17:11:06,056 - Skipping Execute['/var/lib/ambari-agent/tmp/changeUid.sh ambari-qa /tmp/hadoop-ambari-qa,/tmp/hsperfdata_ambari-qa,/home/ambari-qa,/tmp/ambari-qa,/tmp/sqoop-ambari-qa'] due to not_if
2017-08-28 17:11:06,057 - Group['hdfs'] {}
2017-08-28 17:11:06,057 - Adding group Group['hdfs']
2017-08-28 17:33:22,647 - User['hdfs'] {'fetch_nonlocal_groups': True, 'groups': ['hadoop', 'hdfs']}
Command failed after 1 tries还有一件事--我让VM的人只是扩展/usr/文件系统,但是他看到安装发生在/usr/hdp/上,并决定为我创建一个全新的文件系统,安装为/usr/hdp/,我请求的空间为4gb .这就是引起我问题的原因吗?安巴里想要创造这样的空间,因此给我一些问题吗?错误发生后,我检查/usr/hdp目录,其中没有文件.
我一直在上网,但这对我来说是新的.我知道日志中应该有一些信息,但我不确定要查看哪个日志,以及是否应该查看管理服务器上的日志或我试图部署到的节点上的日志.
我有几个问题,但在部署到生产集群之前,我最终只想测试在单个节点上部署基本的Spark和Hadoop设置。以下是几个问题:
发布于 2017-11-02 21:16:14
为了接近这一点,因为我们目前没有使用LDAP/AD,但是我们的Linux环境确实利用了LDAP,问题是Amabri试图创建本地用户。在此之前,它正在通过LDAP进行搜索,以确保用户不存在。考虑到LDAP/AD林的大小,这些搜索花费了很长的时间(每个用户5-10个)(不知道为什么要花这么长时间,但确实如此)。在大约2-3个服务帐户之后,后端的整个部署脚本就会超时,因为使用Ambari部署时有一个总体计时器。
我的解决方案是提前创建这些用户和组。然后,在“集群创建期间的Ambari”中,在“高级”设置中,告诉Amabri忽略创建用户组/帐户。从那以后一帆风顺。我想,如果我使用的是AD/LDAP集成,那么无论如何我们都必须在这些系统中提前创建这些组件。我唯一能避免的方法是我根本不使用LDAP/AD .无论如何,我想张贴这个解决方案,为我们工作,我们是启动和运行后,手动创建本地用户和组。
https://stackoverflow.com/questions/45949821
复制相似问题