一直在研究rowanz的grover模型。我能够对grover的大型模型进行4批大小的培训,但是在微调超级模型的同时,我得到了内存分配错误,然后将批处理大小减少到1,现在正在进行培训。我还试图将max_seq_length减少到512,并将batch_size设置为4,这是可行的。
我的问题是,哪个参数将更多地影响性能,减少批处理大小或减少max_seq_length?
另外,我可以设置max_seq_length的值,而不是2的幂,类似于512到1024之间的某个值吗?
发布于 2020-10-24 14:02:54
我的问题是,哪个参数将更多地影响性能,减少批处理大小或减少max_seq_length?
批次大小的影响:
Max_seq_length的影响:
另外,我可以设置max_seq_length的值,而不是2的幂,类似于512到1024之间的某个值吗?
是啊为什么不呢?没有任何模型设计用于处理一组固定的值。不同的序列长度,看看哪个最适合你。二次方中的一些参数由于其简单的二进制表示而具有较小的计算优势,而在大模型的情况下则是可以忽略不计的。
https://stackoverflow.com/questions/64422552
复制相似问题