在Azure ML服务中使用TensorFlow估计器,配置如下。
from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
script_params=script_params,
compute_target=compute_target,
node_count=4,
distributed_training=distributed_training,
use_gpu=True,
entry_script=train_script)
run = exp.submit(est)似乎在使用这种配置的运行中,各个工作人员提出了自己的训练模型实例,并尝试多次注册该模型。我需要在Tensorflow训练脚本中处理分布式训练吗?
发布于 2019-09-13 01:11:18
您需要在训练脚本中处理模型保存:将模型系数收集到单个等级,并将它们保存到该等级的文件中。
然后,您可以在训练脚本之外注册模型,方法是使用run.register_model并将保存的模型的文件夹/文件作为参数传递。
https://stackoverflow.com/questions/57910952
复制相似问题