我是一名计算机工程专业的学生,正在做一个带有Verari刀片集群的项目,现在的标准有点过时了。我获得了一些Unix的经验,但我一点也不是专家。
这个Verari集群有30个工作叶片节点,20个带有两个双核AMD cpus (Opteron 250)、4Gb DDR和两个250 4Gb的IDE HDD。其他10个节点刀片有两个四核Opteron cpus和8Gb内存,具有相同的IDE HDD。这30个节点连接到一个连接在两个千兆位交换机上的补丁面板上,它们用两根cat-6电缆相互连接,并在两个开关上都启用了连接。另外,我还有一个IBM工作站,它承载了DNS、DHCP、HTTP、LDAP、PXE/TFTP和我的域的FOG服务器。
我的任务是用这个硬件安装一个beowulf集群。它将用于MPI程序、科学计算和地质模拟。我最初的计划是使用带有良好启动文件的CentOS 6.5,以便在每个节点上设置软件RAID 1、使用OpenLDAP服务器进行中央用户身份验证、使用OpenMPI软件和SLURM资源管理器进行部署。
由于我还没有一个中央存储空间可供使用,所以我必须寻找一种方法,使每个计算节点都可以访问用户主目录,其性能开销最小,并且在出错时确保一定的冗余(这是一个2004~2006年的硬件,更容易发生故障)。我想到的是使用自动化的NFS共享,每个计算节点导出一个/home文件夹,并将homeDirectory路径存储在用户的ldap帐户上。这在高达30NFS服务器上的一个千兆字节的链接,混合存储节点和计算节点,不是一个好的做法,但这是我得到的。请记住,这些都是IDE HDD,所以我们有一个很好的旧的写入和阅读瓶颈。
我想到的另一个想法是使用分布式文件系统,再一次将计算节点与存储节点混合。我有红色的GlusterFS,GlusterFS,AFS,PVFS2,OrangeFS和光泽。为了满足我的需要,我认为Lustre是可行的,但它的目的是在一组NAS/SAN服务器上连接到具有Infiniband、Myrinet或其他高速和低延迟链接的计算节点上。要在我的基础设施上使用光泽,我需要有一个MDT和MDS的中心节点,其他29个节点作为OST/compute节点。我可以在这两种选择失败的情况下恢复,但我不知道在30多个节点同时充当存储和计算单元的情况下,Lustre将如何扩展。
有人对我的项目有更好的了解吗?是否有类似的经验或反馈?
提前谢谢你的回答。
发布于 2014-04-19 18:03:19
我对集群的使用一直以ha为主要目标,以速度为次要目标。
我发现,如果我们谈论的并发用户少于1000个,那么非常保守的方法可以实现这两个目标。
对于home-dirs,我将选择一个简单的基于nfs的双节点主动/被动集群,在主/次要drbd角色中,在两个节点之间分配一个偶数的共享。
https://serverfault.com/questions/590052
复制相似问题