我一直在尝试使用自定义数据集来训练一个style-gan2网络。不幸的是,我目前运行计算的服务器有点不稳定,在经过三天的培训后,它就会崩溃。在网络崩溃之前,是否有任何方法可以继续使用网络的最后快照来训练网络?我已经看到了一些关于网络继续培训的参考,但是样式-gan或style-gan2GitHub页面都没有提到它。
发布于 2020-02-28 12:32:20
在仔细研究了一下代码之后,我想出了答案。原来,在resume_pkl中有一个training\training_loop变量。通过将该变量设置为我想要恢复的快照的路径,我能够重新启动培训过程。该网络目前已恢复培训,如果我遇到任何进一步的问题,我将在这里再次发表评论。
发布于 2020-06-13 04:03:33
查看你的stylegan2-master/results/并找到最近的检查点,类似于:
network-snapshot-005120.pkl
然后在training_loop.py中编辑几个变量
插入到检查点pkl文件的完整路径(插入变量"resume_pkl")
然后将kimg值("005120")转换为浮点数,并将其插入resume_kimg。resume_kimg很重要,因为它需要知道在哪里恢复学习速率曲线的事情。
以下是米恩的样子:
resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',
resume_kimg = 5120.0,至于resume_time,我只是把它放在零,因为我知道它训练了大约100天。
在那之后,
回去,运行与启动第一次会话相同的命令.
python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment发布于 2020-03-10 17:37:33
https://stackoverflow.com/questions/60449919
复制相似问题