我正在设计计算量很大的算法,而且我比访问运行该算法的远程机器更受时间的限制。
我的问题如下:
假设我可以访问的每台机器都有24个核心,我有48个任务要运行。目前,我正在将算法分派到两台机器上,每台机器都使用它们的24个核心来处理24个任务。
如果我把相同的进程分派到4台机器上,每个机器产生了12个线程,这会(很可能)导致任务更快地完成吗?我很好奇机器上是否有一些额外的内核,这意味着计算的速度要比运行单个线程所占用的每个核心都要快。
发布于 2022-07-13 20:24:14
这在很大程度上取决于实际算法、实际数据集、包括互连网络在内的目标硬件,如果数据通信和输入/数据数据很重(或者算法运行得非常快)。有些应用在许多核少的机器上扩展得更好,而在少数有多核的机器上有更好的应用。在高性能计算中,研究人员几十年来一直致力于理解混合应用程序的性能,而且对此没有明确的答案:,它依赖于(注意,对于定义良好的数据集,对于给定的定义明确的应用程序,这个问题已经很难回答了,因此人们可以在其上撰写研究论文)。
如果您的任务是内存绑定的,那么使用更多内核较少的机器通常更好。如果传输的数据量很大,或者算法需要较低的延迟时间,那么使用较少的机器通常更好(通常是一台大的SMP)。还有许多其他的事情要考虑,因为机器不仅仅是一个袋子的核心。例如,应该考虑NUMA效应,以及缓存、存储设备系统,甚至OS (并不是在给定机器上的所有子系统规模都与操作系统有关)。
https://stackoverflow.com/questions/72971017
复制相似问题