我很难找到一份关于普通HPC集群平均硬件利用率的全面报告。谷歌( Google )或脸谱网( Facebook )都有关于其云硬件使用情况的各种数据集,但有没有类似的报告/数据集,我可以从HPC中心引用或查看。
我关注的是,如果工作通过粗劣的谷物资源管理器(如SLURM,又称扭矩),那么动态和长尾作业会遭受多大的损失。我知道,这两个资源管理器都支持细粒度的执行,但它们没有像Mesos或Yarn这样的资源管理器那样提供全面的API。
发布于 2016-12-09 19:55:29
很少有高性能控制中心公布关于其使用情况的详细公开报告。例外通常是英国国家高性能混凝土设施,这些设施提供了大量关于其历史使用情况的数据。
目前的服务机构ARCHER发布2014年至目前日期的月度和季度数据(包括使用情况):
http://www.archer.ac.uk/about-archer/reports/
在上一项服务中,HECToR拥有类似的2007-2014年数据,网址是:
http://www.hector.ac.uk/about-us/reports/
在此之前的服务,HPCx,有2002-2010年的数据:
http://www.hpcx.ac.uk/projects/reports/
这应该给你大约15年的数据来检查!
发布于 2016-12-09 07:40:49
根据定义,高性能混凝土力求最大限度地利用。让资源保持忙碌,排满作业队列,保持健康的待办事项。Resoruce/数据中心的使用情况,这将取决于工作负载的类型。它是内存还是计算,还是IO密集型。与其他任何事情一样,在构建HPC集群/环境时也会有一种权衡。因此,通常情况下,并非所有资源,或整个集群都将得到充分利用。这里有很多改进的地方。关于Mesos与传统HPC调度程序的比较,您是正确的。Mesos是两级调度程序。它更全面,但这并不能阻止人们在Slurm或直接与即席mpi一起使用它。这就是为什么我问你同样的问题,以使HPC数据中心更适应不同的工作负荷。高性能计算机可以从DevOps中学到什么?,它可以在传统调度器(如路由器、负载传感器)之上使用自定义脚本,人们可以在一定程度上定制和优化HPC资源的使用。Univa和IBM都有一些商业产品可以实现这一点。
https://stackoverflow.com/questions/41044940
复制相似问题