我正在尝试用pytorch和tensor2tensor训练seq2seq模型(转换器)。使用tensor2tensor时,批处理大小可能类似于1024,而pytorch模型显示CUDA out memory错误,批处理大小为8。在tensor2tensor中有没有什么技术可以最大限度地利用内存。提前谢谢。
我没有在Tensorflow的经验,最近开始研究NLP。遇到了基于文件的变压器的Tensorflow实现。解释T2T并在浏览器中运行,使用来自谷歌的免费VM,不需要安装。
ValueError: Tensorflow 1 is unsupported in Colab.
See the guide at https://www.tensorflow.org/guide/migrate#mig