我正在寻找一个开源的资源管理器,可以在分布式计算环境中管理大规模的工作流。我对TORQUE,SLURM,LOADLEVELER进行了调查,SLURM在处理大型节点方面比TORQUE更好,但在单个集群中。所有这些都用于批处理系统。Condor用于网格环境,但提供粗粒度的分布式并行化。我觉得Ganglia和Nagios在高性能计算环境中很好。但是我想知道Ganglia和Nagios是否可以用于工作流?能否将我的调度算法嵌入到调度器中,并将其与Hadoop MapReduce框架上的资源管理器一起使用?有帮助的回复更受欢迎。谢谢。
发布于 2011-12-14 02:53:53
Ganglia和Nagios是监控工具,它们不会为您提供资源管理。查看最新的Hadoop。它在内部附带了一个资源管理。
新的ResourceManager管理计算资源到应用程序的全局分配,每个应用程序的ApplicationMaster管理应用程序、调度和协调。
http://hadoop.apache.org/common/docs/r0.23.0/
https://stackoverflow.com/questions/8485138
复制相似问题