我的同事和我考虑购买一台新的服务器,以便用SXM2、NVlink等进行深入学习。因为它的power8体系结构,我预计在它上构建一个通常的堆栈会遇到一些困难。docker + tensorflow,用于深度学习框架。是否有人有经验,如果以下设置将工作,或我必须期待困难/不可能?
发布于 2016-11-03 13:42:49
对于上述设置,我们发现它很大程度上取决于用例。下面是研究结果。也许它可以帮助那些想要深入到这个高性能领域并且不确定该买什么架构的人。
用例:--我们的用例是集成到现有体系结构(SLURM)和云服务(主要是x86,如在aws中)。因此,我与nvidia交谈,他们建议在sxm2上使用nvlink ( x86 )。PCIe将覆盖到gpu通信的标准套接字。SXM2将透明地接管GPU的网格通信。这样做的好处是,GPU上的培训速度很快,而x86的部署保持不变(GPU也通过PCIe连接)。
Power8 ,如果您想要拥有完整的Power8功能,这里的用例将是真正的HPC级别,从套接字到GPU。这就要求部署更加复杂。一旦需要确定用例级别(例如高端研究),是否需要power8提升。
Nvidia有一篇不错的科技概览文件论文,更详细地解释了这些内容。
发布于 2016-11-02 20:24:44
不幸的是,我们对TensorFlow的Power体系结构没有太多的经验,而且我还没有看到社区中的人成功地使用它的任何报告,所以它可能需要一些故障排除才能正常工作。
https://stackoverflow.com/questions/40382906
复制相似问题