文章/答案/技术大牛

发布

社区首页 >问答首页 >wandb.wandb_agent -错误-检测到连续5次运行失败，正在关闭

问wandb.wandb_agent -错误-检测到连续5次运行失败，正在关闭
EN

Stack Overflow用户

提问于 2021-07-24 04:09:18

回答 2查看 205关注 0票数 1

在尝试设置wandb时，我遇到以下错误：

wandb: WARNING Calling wandb.login() after wandb.init() has no effect.                                                                                                            
2021-07-23 19:19:32,639 - wandb.wandb_agent - INFO - Running runs: []                                                                                                             
2021-07-23 19:19:32,824 - wandb.wandb_agent - INFO - Agent received command: run                                                                                                  
2021-07-23 19:19:32,825 - wandb.wandb_agent - INFO - Agent starting run with config:                                                                                              
        lr: 0.01                                                                                                                                                                  
        optimizer: Adam                                                                                                                                                           
2021-07-23 19:19:32,826 - wandb.wandb_agent - INFO - About to run command: /usr/bin/env python  --lr=0.01 --optimizer=Adam                                                        
/home/ubuntu/anaconda3/envs/pytorch_latest_p37/bin/python: can't find '__main__' module in ''                                                                                     
2021-07-23 19:19:37,945 - wandb.wandb_agent - INFO - Running runs: ['e8ff7j11']                                                                                                   
2021-07-23 19:19:37,946 - wandb.wandb_agent - INFO - Cleaning up finished run: e8ff7j11

------4 more runs for different hyperparamters-------

2021-07-23 19:19:59,139 - wandb.wandb_agent - ERROR - Detected 5 failed runs in a row, shutting down.
2021-07-23 19:19:59,139 - wandb.wandb_agent - INFO - To change this value set WANDB_AGENT_MAX_INITIAL_FAILURES=val
wandb: Terminating and syncing runs. Press ctrl-c to kill.

代码：

base_config.py

class base_config:
    def __init__(self):
        self.epochs = 10
        self.sweep_config = {
            'method': 'grid',
            'metric': {
              'name': 'val_F1@M',
              'goal': 'maximize'  
            },
            'parameters': {
                'lr': {
                    'values': [1e-2, 1e-3, 1e-4]
                },
                'optimizer': {
                    'values': ['Adam', 'SM3']
                },
            }
        }
        self.config_defaults = {
            'lr': 1e-2,
            'optimizer': 'Adam',
        }

train.py

import wandb
def run(args, config):
    # wandb.log()

def run_and_collect_results(args, config):
    wandb.init(config=config['config_defaults'])
    config.update({k: v for k, v in wandb.config.items()})
    run(args, config)

if __name__ == '__main__':
    # load config from config file
    # load args
    sweep_id = wandb.sweep(config['sweep_config'], project="Pytorch-sweeps")
    wandb.agent(sweep_id, run_and_collect_results(args, config))

我不确定为wandb编写agent的正确方法是什么。当前代码以类似于python --lr=0.01 --optimizer=Adam的日志结尾。文件名似乎丢失了。在这种情况下，我是否需要在单独的文件中编写wandb.agent或使用命令行界面？我期望wandb.agent为不同的超参数调用函数run_and_collect_results的行为。

python

hyperparameters

wandb

回答 2

Stack Overflow用户

发布于 2021-07-25 05:27:14

我认为问题出在您的wandb.agent()函数调用中。它应该得到一个函数(仅名称)作为参数，这样代理就知道用不同的参数调用哪个函数。

但是你正在通过run_and_collect_results(args, config)

不是传递函数名，而是实际调用函数(在函数名后加上圆括号和参数)，并传递结果值。

票数 1

Stack Overflow用户

发布于 2021-08-12 13:18:59

问题是只推荐从Jupyter笔记本调用wandb.agent()，而不是原始的python脚本。对于python脚本，推荐的操作是使用.yaml配置文件并从命令行运行wandb agent script_id。

这是来自W&B github的官方评论：https://github.com/wandb/client/issues/2282#issuecomment-860906921

文档：https://docs.wandb.ai/guides/sweeps/quickstart

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68504577

复制

相似问题

问wandb.wandb_agent -错误-检测到连续5次运行失败，正在关闭
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wandb.wandb_agent -错误-检测到连续5次运行失败，正在关闭EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wandb.wandb_agent -错误-检测到连续5次运行失败，正在关闭
EN