本文作者:https://arxiv.org/pdf/1609.08144.pdf "谷歌的神经机器翻译系统:弥合人与机器翻译之间的鸿沟",2016年
在第12页,在表1中,列出了对他们2016年神经翻译模型进行推理的解码时间比GPU快近3倍。它们的模型在深度轴上跨GPU高度并行化。
有人会有洞察力吗?
这是否也意味着,一般来说,在GPU上进行训练时,在CPU上执行神经网络的测试步骤更好?这是否也适用于仅在1个GPU上接受培训的模型,而不是多个GPU上的模型?
发布于 2017-03-27 07:49:13
他们使用了88个CPU核,并将其表示为CPU,而只使用了一个GPU。因此,理论峰值性能并没有那么大的不同。接下来,数据必须加载到GPU中,这是一个开销,这在CPU上是不需要的。这两个因素的结合使CPU进程表现得更好。
https://stackoverflow.com/questions/43036211
复制相似问题