我在Medium上读了一篇名为Differential Learning Rates的文章,想知道这是否可以应用到Keras中。我能够找到在pytorch中实现的这种技术。这可以在Keras中实现吗?有没有人可以提供的示例代码?
发布于 2021-09-28 17:37:35
从Tensorflow 2.4开始,tf.keras.optimizers.Optimizer中有一个参数:gradient_transformers。它是一个函数列表,这些函数接受并返回[(gradient, Variable), ...]对的列表。您可以将差异学习率实现为转换,通过此参数根据网络中的权重位置来降低学习率。
https://stackoverflow.com/questions/54226309
复制相似问题