暂无搜索历史
场景:在训练神经网络时,常常遇到优化器不更新模型参数,尽管梯度计算正常且没有出现 NaN。最开始我们以为是数据问题或模型设计问题,但深入排查发现,问题其实出在梯...
场景:做自回归语言建模(next-token prediction)。训练 loss 长期在 3.x~5.x,perplexity 居高不下;采样生成大量 PA...
场景:单机单/多卡训练。GPU 利用率呈“锯齿形”大幅波动(80% → 0% → 80%)、step time 偶发飙到几秒,甚至第 1 个 epoch 结束后...
场景:在连续控制(Pendulum/HalfCheetah/Walker 等)上复现 SAC。训练能学,但回报抖动大、迟迟上不去,α(熵系数)时而爆、时而缩到几...
场景:在分类/分割/检索模型上,换了优化器和 weight_decay 之后,训练明显更慢、验证精度长时间不上升。常见三件事:
场景:用 DQN 训练 CartPole/LunarLander,本地跑起来“能学”,但回报忽高忽低、训练极不稳定,稍微调大学习率就直接发散。复盘最常见三件事:
场景:在 CartPole / LunarLander 这类经典离散环境上用 PPO 复现论文曲线,结果训练很慢或直接“横着走”。复盘常见三件事:
场景:语义分割(二分类/多分类)。训练中 mIoU 长期不涨、偶发跳水;可视化发现轮廓“毛边”或标签错位。复盘后发现三件高频问题:
腾讯元器是腾讯推出的零代码智能体创建与分发平台,深度集成腾讯特色生态能力,提供低门槛的创建能力以及免费的模型支持,每个人都可以快速搭建可自动回复的专属AI聊天机...
这两种方式分别通过在找到最小的更新矩阵、最小精度来实现显存的减少。但在工业、科研中,依然存在着一个问题:同样的数据、同样的训练流程下,用 LoRA 微调和用 F...
前面QLoRA主要在讲“怎么在全精度模型上优雅地加一个低秩增量 ΔW”。工业界真实场景里依然存在着两个很常见的问题:
✍ 在大模型后训练这条线里,大模型的参数量往往是几十亿、上百亿。SFT / RLHF / DPO / GRPO 这些“训练流程”本身固然重要,但如果用 全参数微...
✍ 前面几章我们已经把“大模型架构四件套”(GQA / RoPE / SwiGLU / RMSNorm)和 DeepSeek 系列摸了个大概,知道了一个 LLM...
✍ 在上一章里,我们已经把现代 LLM 的“四件标配武器”(GQA / RoPE / SwiGLU / RMSNorm + Pre-Norm)系统的学习一遍。现...
✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、D...
✍ 上一篇我们把现代大模型的两件“基础设施”——GQA 注意力 和 RMSNorm + Pre-Norm 细讲了一遍,从多头注意力的演化一路讲到归一化的升级。这...
在专题《ReAct》我们提到过,原生的ReAct目光比较短浅,做出的决策是 “想一点 → 做一步”,而在我们的科研、工作中,往往还需要应对长远规划、多阶段子任务...
我们现在在大模型交互的过程中,往往会给我们一种感觉,LLM本身就已经有了记忆模块,例如我们常用的Deepseek, GPT, Gemini。
在推理过程中,显式地交替输出“思考内容(Thought)”和“行动指令(Action)”,再利用环境反馈(Observation)更新后续推理。
✍ 本专题假设读者已经具备一定的深度学习与 Transformer 基础,目标是帮助读者系统地复习 BERT 模型的核心设计思想与常见面试问法。本专题来源于本人...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市