我正在写深入学习的学术论文。但我不知道如何适当地比较两种方法/模型。例如,
此外,如果有人能提供相关的幻灯片/教程/博客,我将不胜感激。
提前感谢!
发布于 2022-09-03 17:19:13
TLDR;取决于
大多数论文都有高度调谐的超参数。因此,如果你保持学习率/批量大小等,你的新的模型架构就会处于很大的劣势。一致的。
这取决于您正在测试什么。
总体指导是在你试图超越的文献中设定一些一致的预算。
这将需要调整到您的特定解决方案。
我所看过的最有趣的论文将改变lr和批处理大小,然后解压新方法在每种情况下的行为方式。例如,如果您有大量的GPU RAM,并且能够提供更大的批处理大小,请使用这种新方法。
https://datascience.stackexchange.com/questions/114065
复制相似问题