首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏相约机器人

    PyTorch实现的“MixHop

    --learning-rate FLOAT Adam learning rate. Default is 0.01. python src/main.py --learning-rate 0.1 --dropout 0.9 使用扩散顺序2训练模型: python src/main.py --layers 64 64 训练

    1.7K10发布于 2019-06-21
  • 来自专栏NLP/KG

    解决SystemExit: 2,args = parser.parse_args() 的问题,

    int) parser.add_argument("-b", "--batch-size", default=1000, type=int) parser.add_argument("-lr", "--learning-rate int) parser.add_argument("-b", "--batch-size", default=1000, type=int) parser.add_argument("-lr", "--learning-rate

    2.2K20编辑于 2022-12-21
  • 来自专栏vanguard

    ImageNet Classification 深度学习模型

    github.com/facebookresearch/FixRes PyTorch 1.0 python main_resnet50_scratch.py --batch 64 --num-tasks 8 --learning-rate

    85100发布于 2020-03-16
  • 来自专栏Kubernetes

    利用Kubernetes和Helm进行高效的超参数调优

    layer_size]), name='b') return tf.nn.relu(tf.matmul(X, W) + b) @click.command() @click.option("--learning-rate # We also put the values between quotes to avoid potential formatting issues - --learning-rate main.py训练脚本有3个参数: argument description default value --learning-rate Learning rate value 0.001 --hidden-layers

    1.3K10发布于 2018-09-06
  • 来自专栏SimpleAI

    【DL碎片2】神经网络中的优化算法

    口说无凭,现在我做个实验验证一下是不是mini-batch 更好: 实验条件: 三层神经网络,learning-rate=0.0007,batch size=300,mini-batch size=64 对于Momentum的效果不那么明显的现在,吴恩达的解释是在learning-rate太小以及数据集比较简单的情况下,momentum发挥不了太大的作用,因此本实验中我们看不出惊人的效果。 总结一下: Mini-batch GD比传统GD效果更好,训练更快 Momentum动量法可以减小Mini-batch带来的振动 梯度下降的最佳优化方法是Adam算法 Adam算法中的超参数β1和β2以及learning-rate

    51841发布于 2018-10-25
  • 来自专栏机器学习炼丹术

    Adam优化器为什么被人吐槽?

    【warn-up】: 是指不要一开始用高的learning-rate,应该要从低的慢慢增大到base-learning rate。学习率从小到大。

    3.6K20发布于 2020-07-14
  • 来自专栏奇点大数据

    Pytorch神器(11)

    python train.py --batch_size 12–learning-rate=1e-5 这个地方learning-rate要给的小一些,如果用原来默认的1e-3的话很可能还没有几轮就loss

    77340发布于 2018-07-24
  • 来自专栏AI研习社

    开发 | Facebook 开源深度学习推荐模型 DLRM,可直接用 PyTorch 和 Caffe2 实现!

    /input/kaggle_processed.npz --loss-function=bce --round-targets=True --learning-rate=0.1 --mini-batch-size

    1K30发布于 2019-07-12
  • 来自专栏机器之心

    想知道Facebook怎样做推荐?FB开源深度学习推荐模型

    /input/kaggle_processed.npz --loss-function=bce --round-targets=True --learning-rate=0.1 --mini-batch-size

    92210发布于 2019-07-12
  • 来自专栏自然语言处理(NLP)论文速递

    Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。

    更新权重的时候,使用除根号的方法,可以使较大的梯度大幅度变小,而较小的梯度小幅度变小,这样就可以使较大梯度方向上的波动小下来,那么整个梯度下降的过程中摆动就会比较小,就能设置较大的learning-rate

    25.2K30发布于 2019-08-21
  • 来自专栏AI科技大本营的专栏

    改善深度学习训练的trick总结 | CSDN博文精选

    代码链接 keras版本: https://github.com/emrul/Learning-Rate 参数设置 1、min_lr:最小学习率,max_lr:最大学习率; 2、base_iterations

    3.2K10发布于 2019-12-10
  • 来自专栏相约机器人

    Facebook 开源深度学习推荐模型 DLRM,可直接用 PyTorch 和 Caffe2 实现!

    /input/kaggle_processed.npz --loss-function=bce --round-targets=True --learning-rate=0.1 --mini-batch-size

    1.5K10发布于 2019-07-12
  • 来自专栏新智元

    CVPR 18论文“无法重现”?中国作者再度澄清获网友一边倒支持

    'noiseresnet18' --dataset-test 'CIFAR10' --dataset-train 'CIFAR10' --nfilters 128 --batch-size 10 --learning-rate perturb_resnet18' --dataset-test 'CIFAR10' --dataset-train 'CIFAR10' --nfilters 256 --batch-size 20 --learning-rate

    1.6K20发布于 2018-12-19
  • 深度更新过程解决间歇性需求预测难题

    [--calculate-spec CALCULATE_SPEC] [--batch_size BATCH_SIZE] [--learning-rate computationally expensive and therefore False by default --batch_size BATCH_SIZE --learning-rate

    10410编辑于 2026-02-04
  • 来自专栏yhlin's blog

    【论文笔记】Efficient Context and Schema Fusion Networks for Multi-Domain Dialogue State Tracking

    batch_size = 32 优化器选择 ADAM,learning-rate=1e-4 结果 如表所示,本文提出的 CSFN-DST 的性能可以优于除 SOM-DST 之外的其他模型。

    65920编辑于 2023-02-13
  • 来自专栏数据分析与挖掘

    【pytorch-ssd目标检测】训练自己创建的数据集

    , type=str2bool, help='Use CUDA to train model') parser.add_argument('--lr', '--learning-rate python train.py --dataset MASK --dataset_root MASK_ROOT --learning-rate 1e-5 部分结果: Loading base network

    1.8K31发布于 2020-08-26
  • 来自专栏李智的专栏

    斯坦福CS231n - CNN for Visual Recognition(8)-lecture6学习率更新、超参数调优

    增加了偏差校正和动量 RMSprop、AdaDelta和Adam是非常类似的算法,在类似的环境下,效果相当 从整体上看,Adam目前是最好的选择 2)如果输入数据是稀疏的(sparse),使用adaptive learning-rate (AdaGrad、AdaDelta、RMSprop、Adam)可以获得最好的结果,且不需要调整learning rate; 3)如果你关心快速收敛,你应当选择adaptive learning-rate

    63120发布于 2018-08-03
  • 来自专栏CDA数据分析师

    GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!

    reducing-loss/gradient-descent 学习率: https://developers.google.com/machine-learning/crash-course/reducing-loss/learning-rate

    63520发布于 2019-05-09
  • 来自专栏AI科技大本营的专栏

    GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!

    reducing-loss/gradient-descent 学习率: https://developers.google.com/machine-learning/crash-course/reducing-loss/learning-rate

    61530发布于 2019-05-06
  • 来自专栏NLP小白的学习历程

    随机梯度下降之——SGD自适应学习率

    As we can see, the adaptive learning-rate methods, i.e. If your input data is sparse, then you likely achieve the best results using one of the adaptive learning-rate

    1.2K50发布于 2020-11-13
领券