九年义务漏网鲨鱼

文章/答案/技术大牛

发布

LV4

全部文章

为什么会觉得 Hermes 比 OpenClaw 更快、更“会干活”
最近看见了一个比较搞笑的评论：”三月养虾，四月养马“。继Openclaw后Hermes再一次爆火，我翻阅了论坛上对于他的评价，基本好评是占大多数的，聚焦于两个点...
九年义务漏网鲨鱼 12天前2026-04-15 14:03:41
腾讯云智能体开发平台
QClaw：工科生的数字章鱼哥
对于很多工科生来说，科研和开发从来不只是建模、写代码这么简单。更多时候，它还伴随着大量零散却无法跳过的前置工作：准备数据、调整参数、跑实验、看日志、整理结果……...
九年义务漏网鲨鱼 16天前2026-04-10 19:22:23
QClaw、QClaw脑洞名场面
章鱼哥开始替我值班：QClaw 给工科生的旅行自由
QClaw 是腾讯电脑管家基于 OpenClaw 开源生态打造的本地化 AI Agent 助手
 九年义务漏网鲨鱼 17天前2026-04-10 07:49:49
QClaw脑洞名场面
Skill-adapter：让SKILL快速部署到你的ai应用
随着 AI Coding 和智能体开发越来越普及，越来越多开发者开始把大模型接入真实应用中。但在这个过程中，一个很常见的问题也逐渐暴露出来：同类 prompt ...
九年义务漏网鲨鱼 2026-03-232026-03-23 13:43:48
腾讯云智能体开发平台
训练时忽略优化器参数更新？梯度未更新的潜在原因与修复方案
场景：在训练神经网络时，常常遇到优化器不更新模型参数，尽管梯度计算正常且没有出现 NaN。最开始我们以为是数据问题或模型设计问题，但深入排查发现，问题其实出在梯...
九年义务漏网鲨鱼 2025-12-292025-12-29 08:58:47
腾讯技术创作特训营S17
语言模型 loss 居高不下？未移位 labels、PAD 未忽略、注意力 mask 错误的三连坑
场景：做自回归语言建模（next-token prediction）。训练 loss 长期在 3.x～5.x，perplexity 居高不下；采样生成大量 PA...
九年义务漏网鲨鱼 2025-12-262025-12-26 16:15:36
日志服务
训练每隔几步就“卡半天”？PyTorch DataLoader 阻塞与吞吐骤降的三连坑：num_workers/预取与持久进程、pin_memory/非阻塞搬运
场景：单机单/多卡训练。GPU 利用率呈“锯齿形”大幅波动（80% → 0% → 80%）、step time 偶发飙到几秒，甚至第 1 个 epoch 结束后...
九年义务漏网鲨鱼 2025-12-262025-12-26 16:08:42
日志服务
tanh-squash 的 log_prob 未修正、α 自适应错写、没有双 Q 取最小的三连坑
场景：在连续控制（Pendulum/HalfCheetah/Walker 等）上复现 SAC。训练能学，但回报抖动大、迟迟上不去，α（熵系数）时而爆、时而缩到几...
九年义务漏网鲨鱼 2025-12-202025-12-20 11:54:05
日志服务
准确率长期卡在 70%？把 weight_decay 用成 L2、给 Norm/偏置也衰减、与 AdamW 混用的三连坑
场景：在分类/分割/检索模型上，换了优化器和 weight_decay 之后，训练明显更慢、验证精度长时间不上升。常见三件事：
九年义务漏网鲨鱼 2025-12-192025-12-19 16:08:07
日志
DQN 学不稳？未冻结 target、忘记 detach、终止状态仍 bootstrap 的三连坑
场景：用 DQN 训练 CartPole/LunarLander，本地跑起来“能学”，但回报忽高忽低、训练极不稳定，稍微调大学习率就直接发散。复盘最常见三件事：
九年义务漏网鲨鱼 2025-12-182025-12-18 13:49:25
日志服务
PPO 学不动？advantage 未归一、旧 log_prob 没缓存
场景：在 CartPole / LunarLander 这类经典离散环境上用 PPO 复现论文曲线，结果训练很慢或直接“横着走”。复盘常见三件事：
九年义务漏网鲨鱼 2025-12-172025-12-17 17:15:56
日志分析
# 分割训练越训越差？图像与掩码增强不同步、掩码用双线性插值、dtype/ignore_index 处理错误
场景：语义分割（二分类/多分类）。训练中 mIoU 长期不涨、偶发跳水；可视化发现轮廓“毛边”或标签错位。复盘后发现三件高频问题：
九年义务漏网鲨鱼 2025-12-162025-12-16 13:56:10
日志
【腾讯元器】学术炼金废弃回收站
腾讯元器是腾讯推出的零代码智能体创建与分发平台，深度集成腾讯特色生态能力，提供低门槛的创建能力以及免费的模型支持，每个人都可以快速搭建可自动回复的专属AI聊天机...
九年义务漏网鲨鱼 2025-12-142025-12-14 15:08:13
地球online合法外挂#心灵奇旅
【大模型后训练专题】 DoRA微调原理及实战项目
这两种方式分别通过在找到最小的更新矩阵、最小精度来实现显存的减少。但在工业、科研中，依然存在着一个问题：同样的数据、同样的训练流程下，用 LoRA 微调和用 F...
九年义务漏网鲨鱼 2025-12-122025-12-12 16:55:02
腾讯技术创作特训营S16
【大模型后训练专题】 QLoRA微调原理及实战项目
前面QLoRA主要在讲“怎么在全精度模型上优雅地加一个低秩增量 ΔW”。工业界真实场景里依然存在着两个很常见的问题：
九年义务漏网鲨鱼 2025-12-102025-12-10 16:36:29
腾讯技术创作特训营S16
【大模型后训练专题】 LoRA微调原理及实现
✍ 在大模型后训练这条线里，大模型的参数量往往是几十亿、上百亿。SFT / RLHF / DPO / GRPO 这些“训练流程”本身固然重要，但如果用全参数微...
九年义务漏网鲨鱼 2025-11-272025-11-27 17:29:51
腾讯技术创作特训营S16
【大模型后训练学习】DPO与GRPO专题学习
✍ 前面几章我们已经把“大模型架构四件套”（GQA / RoPE / SwiGLU / RMSNorm）和 DeepSeek 系列摸了个大概，知道了一个 LLM...
九年义务漏网鲨鱼 2025-11-242025-11-24 15:32:10
腾讯技术创作特训营S16
【多模态大模型面经】 DeepSeek专题： DeepSeekMOE + MLA
✍ 在上一章里，我们已经把现代 LLM 的“四件标配武器”（GQA / RoPE / SwiGLU / RMSNorm + Pre-Norm）系统的学习一遍。现...
九年义务漏网鲨鱼 2025-11-212025-11-21 17:23:17
腾讯技术创作特训营S16
【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm
✍ 在大模型论文学习中，相信很多读者和笔者一样，一开始都会有一种感觉：“现在大模型架构都差不多，主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、D...
九年义务漏网鲨鱼 2025-11-202025-11-20 10:41:16
腾讯技术创作特训营S16
【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU
✍ 上一篇我们把现代大模型的两件“基础设施”——GQA 注意力和 RMSNorm + Pre-Norm 细讲了一遍，从多头注意力的演化一路讲到归一化的升级。这...
九年义务漏网鲨鱼 2025-11-202025-11-20 10:36:55
腾讯技术创作特训营S16

12 3 4 5 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2024-11-02

个人成就

获得 151 次赞同
文章被阅读 61.7K 次
文章获得 30 次首页推荐

关注了：1关注者：28

九年义务漏网鲨鱼

全部文章

为什么会觉得 Hermes 比 OpenClaw 更快、更“会干活”

QClaw：工科生的数字章鱼哥

章鱼哥开始替我值班：QClaw 给工科生的旅行自由

Skill-adapter：让SKILL快速部署到你的ai应用

训练时忽略优化器参数更新？梯度未更新的潜在原因与修复方案

语言模型 loss 居高不下？未移位 labels、PAD 未忽略、注意力 mask 错误的三连坑

训练每隔几步就“卡半天”？PyTorch DataLoader 阻塞与吞吐骤降的三连坑：num_workers/预取与持久进程、pin_memory/非阻塞搬运

tanh-squash 的 log_prob 未修正、α 自适应错写、没有双 Q 取最小的三连坑

准确率长期卡在 70%？把 weight_decay 用成 L2、给 Norm/偏置也衰减、与 AdamW 混用的三连坑

DQN 学不稳？未冻结 target、忘记 detach、终止状态仍 bootstrap 的三连坑

PPO 学不动？advantage 未归一、旧 log_prob 没缓存

# 分割训练越训越差？图像与掩码增强不同步、掩码用双线性插值、dtype/ignore_index 处理错误

【腾讯元器】学术炼金废弃回收站

【大模型后训练专题】 DoRA微调原理及实战项目

【大模型后训练专题】 QLoRA微调原理及实战项目

【大模型后训练专题】 LoRA微调原理及实现

【大模型后训练学习】DPO与GRPO专题学习

【多模态大模型面经】 DeepSeek专题： DeepSeekMOE + MLA

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

九年义务漏网鲨鱼

为什么会觉得 Hermes 比 OpenClaw 更快、更“会干活”

QClaw：工科生的数字章鱼哥

章鱼哥开始替我值班：QClaw 给工科生的旅行自由

Skill-adapter：让SKILL快速部署到你的ai应用

训练时忽略优化器参数更新？梯度未更新的潜在原因与修复方案

语言模型 loss 居高不下？未移位 labels、PAD 未忽略、注意力 mask 错误的三连坑

训练每隔几步就“卡半天”？PyTorch DataLoader 阻塞与吞吐骤降的三连坑：num_workers/预取与持久进程、pin_memory/非阻塞搬运

tanh-squash 的 log_prob 未修正、α 自适应错写、没有双 Q 取最小的三连坑

准确率长期卡在 70%？把 weight_decay 用成 L2、给 Norm/偏置也衰减、与 AdamW 混用的三连坑

DQN 学不稳？未冻结 target、忘记 detach、终止状态仍 bootstrap 的三连坑

PPO 学不动？advantage 未归一、旧 log_prob 没缓存

​# 分割训练越训越差？图像与掩码增强不同步、掩码用双线性插值、dtype/ignore_index 处理错误

【腾讯元器】学术炼金废弃回收站

【大模型后训练专题】 DoRA微调原理及实战项目

【大模型后训练专题】 QLoRA微调原理及实战项目

【大模型后训练专题】 LoRA微调原理及实现

【大模型后训练学习】DPO与GRPO专题学习

【多模态大模型面经】 DeepSeek专题： DeepSeekMOE + MLA

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

# 分割训练越训越差？图像与掩码增强不同步、掩码用双线性插值、dtype/ignore_index 处理错误