我正在写我的毕业论文。其主要目标是创建基于web的应用程序,在这个应用程序中,日志记录用户可以看到空闲和繁忙的节点,打开或关闭它们,查看他们正在运行的进程等等。我知道我可以这样做--编写一个cron守护进程,每30秒左右运行一次,它还可以为每个节点运行ping实用程序,以确定它是否打开或关闭,然后将结果写入某个文件。然后,从我的web应用程序(我将用PHP编写),我可以阅读信息。这会是一个好的解决办法吗?你建议我怎么做?最后,是否有任何现有的解决方案(它可能不是一个明确的基于ewb的)来管理集群节点?
发布于 2010-04-09 03:40:23
在过去,我使用Ganglia来进行节点可用性和负载监视。它不会告诉您哪些作业正在运行,但它将显示集群的健康状况。
Nagios是我在集群中使用过的其他东西,但是它不仅仅是集群监视。它可以监视进程、磁盘空间、内存和任何您可以为之编写脚本或找到脚本的东西。这也是基于网络的。
至于作业调度程序,有几个选项取决于您希望如何配置。选项将包括但不限于: OpenPBS、TORQUE、PBSPro、Maui集群调度器、SLURM、Sun引擎。这些都是我知道,中心目前正在使用的高性能控制调度。维基百科有一个列表,但我不相信所有列出的都是HPC时间表。http://en.wikipedia.org/wiki/Job_调度器
地点:
神经节http://ganglia.sourceforge.net/
Nagios http://www.nagios.org/
发布于 2010-04-09 05:35:18
看看DRMAA。它是作业提交和控制的通用API,正在成为工作负载管理器之间的标准。至于控制节点本身,这在很大程度上取决于您正在使用的系统。大多数都有一些API,可以用来与它们进行接口,并执行与使用命令行工具相同的操作。
你的项目听起来很有趣,祝你好运。
https://serverfault.com/questions/130705
复制相似问题