凯哥丨字节跳动：大模型以后不按“字数”收费，按“重点”收费？

凯哥

发布于 2026-01-13 14:00:32

3160

文章被收录于专栏：凯哥讲故事系列凯哥讲故事系列

欢迎大家关注“凯哥讲故事系列”公众号，我是凯哥

给你最本质，最实战的数字化转型指南

0 大模型时代的预算死亡现场

大贵收到一封内部邮件，标题很短，杀伤力很大：

《本周起：推理服务限流》

邮件正文更短：

·GPU 用量超标

·预算燃尽提前 18 天

·业务侧请“减少无意义调用”

·技术侧请“优化 prompt、降低 token”

大贵看完就笑了，笑得有点冷：

大贵：你看，AI 还没替代人类，人类先被 AI 的账单替代了。

大富：这就是今天的大模型：不是不会干活，是太爱逐字表演。

大贵：表演得越认真，账单越像判决书。

2 DLCM 这篇论文干了件“非常人话”的事

2025 年 12 月 31 日，arXiv 出了一篇论文：DLCM（Dynamic Large Concept Models）。名字很学术，但它讲的道理特别人话：

一句话讲透：

现在的大模型最大的浪费，是“每句话里，废话和重点用了一样多的脑子”。

传统模型像一个员工：

·“的、了、啊、嗯”也要认真想；

·“但是、所以、关键在于”也要认真想；

·每个字同价。

DLCM 说：不行。语言里有大量“可预测的铺垫”，

真正值钱的是“语义拐点”（转折、因果、结论）。

所以模型要学会把一串字压缩成“概念块（concept）”，废话轻算、重点深算。

论文还给了一个非常直白的结果：在平均“4 个 token ≈ 1 个概念块”的设定下，把约 1/3 的推理计算挪给更强的推理骨干，在 12 个 zero-shot 基准上平均提升 2.69%（同等推理预算）。

大富：以前是“按字数结算”。

大贵：现在它说：不，应该“按重点结算”，或“按价值结算”。

2 两个比喻把 DLCM 讲到路人都懂

比喻 1：逐粒嚼米 vs 吃到骨头才啃

你对员工说：

方案大体可行，但关键风险在合规；先上试点，再放量。

传统大模型像“逐粒嚼米”：每个字都嚼 30 下。成熟员工是“吃到骨头才啃”：

·关键风险：合规

·策略：试点→放量

DLCM 就是要让模型学会：米饭别嚼了，骨头才值得嚼。

比喻 2：仓库搬货——空纸箱和保险柜一个价？

旧模型像仓库全靠人工搬：空纸箱也两个人抬，保险柜也两个人抬，结果老板买单买到破产。

DLCM 把仓库改造为：空纸箱叉车一推就走（轻算），保险柜叫专业队伍慢慢拆（重算）。一句话：算力终于有了等级制度。

3 三张“一眼懂”的示意图

图 1：旧模型 vs DLCM——“每个字同价” vs “按重点计费”

旧模型（Token 平权社会） [这][个][方][案][大][体][可][行][但][关][键][风][险][在][合][规] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 （每个字都收费） DLCM（重点计费社会） [铺垫/客套/可预测段] ——轻算→→ [但是/所以/关键在于/结论段] ——重算↓↓↓

图 2：仓库逻辑——为什么会“聊穷”

旧仓库（全人工）空纸箱 ──两个人抬──> 也收费保险柜 ──两个人抬──> 也收费结论：成本跟“搬了多少东西”走，不跟“值不值钱”走新仓库（DLCM）空纸箱 ──叉车推走──> 便宜保险柜 ──专业队拆──> 贵但值结论：成本跟“重点”走

图 3：未来三年成本战争——三波浪潮

2026 省钱模式：废话不配用算力 ↓ 2027 精读模式：长上下文从“能塞下”变成“会读懂” ↓ 2028 治理模式：推理/Agent 的“想多久、想多深”变成可运营成本

4 行业影响：这不是比谁“更聪明”，这是比谁“更会花钱”

大贵：以前模型比聪明。

大富：以后模型比“谁更像成熟员工”。

影响 1：竞争从“模型大小”转向“算力调度能力”

同样预算，谁能把算力从“水词”挪到“拐点”，谁更强更便宜。

影响 2：长上下文进入“精读时代”

2M 字不是能力，从 2M 字里自动挑出 20% 的关键段落深算才是能力。

影响 3：推理模型进入“算力治理时代”

推理模型的最大问题是：一认真就加班，一加班就烧钱。DLCM 的方向是：别到处想，在关键处想深一点。

5 字节调性是什么？

如果说“行业学 DLCM 是为了更强”，那“字节学 DLCM 可能首先是为了更省”，这也是典型的“字节调性“”

大富：字节不是最爱论文的公司。

大贵：字节是最爱把论文变成“成本曲线”的公司。

字节公开的很多硬论文，讲的都是同一件事：怎么把大模型做成工厂——能练出来、练得稳、练得久、练得起规模。

2025-12：DLCM（算力从“按字”到“按重点”）

2025-12：RobustRL（RL 后训练的生产级容错）
2025： ByteRobust（20 万 GPU 平台上的连续训练稳定性）
2025： ByteScale（2048K 长上下文 + 12,000+ GPU 混训提效）
2025： MegaScale-MoE（MoE 生产训练系统）
2025： Seed1.5-VL（多模态 MoE：60 个基准里 38 个 SOTA 的说法）
2025： Seedream 2.0（中英双语图像生成+文字渲染等能力）
2025： SuperGPQA（285 学科研究生级评测基准）
2024：FullStack Bench（全栈代码评测 + 沙箱执行 SandboxFusion）
2024： Seed-Music（音乐生成与编辑统一框架）
2024： MegaScale（NSDI）（万卡训练系统工程经验）
这串下来你会发现：

模型能力当然做，但更高频、更硬核的是“基础设施与生产体系”——因为那决定了它能不能把研究变成利润，比如：

A）最新爆点：把计算单位从 token 改成 concept

DLCM: Dynamic Large Concept Models (2512.24617, 2025-12-31)
核心：学习可变长概念边界，在 concept 空间做深推理；提出 compression-aware scaling law；同 FLOPs 平均 +2.69%。

B）推理与 RL：把“会答题”变成“会做事”

Seed1.5-Thinking (2504.13914, 2025)
核心：通过 RL 让模型“先想再答”，在 AIME/Codeforces/GPQA 等推理与代码指标上给出强结果。
Role-Based Fault Tolerance System for LLM RL Post-Training (2512.22492, 2025-12)
核心：RL 后训练把训练与推理交织，提出按角色隔离与 Detect-Restart-Reconnect 的鲁棒系统（RobustRL）。

C）多模态与生成：把模型变成内容工厂的“机床”

Seed1.5-VL Technical Report (2505.07062, 2025)
核心：532M 视觉编码器 + 20B active MoE；报告称在大量公开 VLM 基准上取得强表现，并覆盖 agent 类任务。
Seedream 2.0 (2503.07703, 2025)
核心：中英双语图像生成 + 文字渲染；数据系统、caption 系统、Glyph 对齐等，并提到多阶段后训练与 RLHF。
Seed-Music (2409.09214, 2024)
核心：音乐生成与编辑统一框架，结合自回归与扩散，覆盖受控生成与后期编辑工作流。

D）评测与基准：给产品迭代立“靶场”

SuperGPQA / Scaling LLM Evaluation across 285 Graduate Disciplines (2502.14739, 2025)
核心：285 学科、26,529 题的研究生级评测；人类-LLM 协同过滤机制提升题目质量。
FullStack Bench (2412.00535, 2024)
核心：面向真实全栈编程的多语言基准 + 沙箱执行工具（SandboxFusion），强调“能跑起来”的评测。

E）训练系统与生产工程：把“烧算力”变成“工业生产”

MegaScale (2402.15627, 2024, NSDI’24)
核心：>10,000 GPU 训练系统；强调可观测性、稳定性、容错与 straggler 缓解；给出 175B 在 12,288 GPU 上 MFU 55.2% 的结果。
Understanding Stragglers… What-if Analysis (2505.05713, 2025)

核心：基于五个月训练集群 trace 的 straggler 系统研究与 what-if 分析方法。

ByteScale (2502.21231, 2025)

核心：面向 256K–2048K 长上下文的混合训练框架；动态 mesh + HDP；在 12,000+ GPU 集群上最多 7.89× 提升。

MegaScale-MoE (2505.11432, 2025)

核心：MoE 大规模训练的通信效率与系统设计，瞄准“参数更大但激活更省”的可经营路线。

ByteRobust: Robust LLM Training Infrastructure at ByteDance (2509.16293, 2025)

核心：面向连续训练的鲁棒系统；论文摘要提到在 200,000 GPU 平台部署，并给出长任务 ETTR 指标（例如 9,600 GPU、三个月训练等）。

大富：
这 13 篇要是放在别家公司，是“研究成果”。
大贵：
放在字节，这是“生产线说明书 + 产品线目录”。

所以字节发表DLCM 这种“按重点计费”的方法，在字节最可能按这个顺序落地：

·先在线推理降本：同样机器多跑用户、同样延迟更准

·再长内容精读：直播、评论楼、长文——只在关键段落深算

·最后嫁接推理模型：让“先想再答”变成“在关键处想深一点”

6 未来三年：AI 成本战争的三波预测

大富：未来三年，AI 最大战争不是参数战争。

大贵：是账单战争。

第一波（2026）：废话不配用算力

宣传口径会从“更聪明”变成：同价更快 / 同延迟更准 / 同机器并发更高。

第二波（2027）：长上下文进入精读

竞争不在“谁能塞 2M”，而在“谁能把 2M 里最值钱的 20% 抠出来深算”。

第三波（2028）：推理与 Agent 的算力治理

“想多久、想多深”变成可运营成本。企业会像管人一样管模型：该想就想，不该想别演，关键节点必须想对。

7 一句狠话

大富：以前大模型收费像出租车，按里程计费。

大贵：DLCM 说不，应该按“你有没有到目的地”计费。

大富：而字节最危险的地方在于——一旦它认定“钱烧错了地方”，它会把“正确烧钱的方法”，做成行业标准。

富贵研究所，是「凯哥讲故事」旗下的产业观察栏目与长期研究计划。

聚焦 AI 时代的产业变化，把技术进展转化为更易理解的行业语言：通过真实场景、关键事件与可验证的推演，分析商业模式、组织分工与新型入口的演化方向。每篇文章力求做到三点：讲清趋势、讲透逻辑、给出可落地的参考框架。文中偶尔引用“大富”“大贵”的一句点评，作为观察视角的点睛。

欢迎关注富贵研究所，一起把变化看懂、把选择做稳。

欢迎加入「富贵研究所」

洞察 AI 时代，找到富贵之路

END

AI 转型交付式咨询服务

场景培育交付式咨询服务

企业数字化转型/场景识别、共创、落地

精益数据训练营/解决方案架构师特训营

从数据到价值：精益数据工作坊

数字化咨询教练陪跑服务：

数字化转型规划 | 顶层设计 |企业创新与运营

IT战略规划 | IT服务管理体系 | 数据治理

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-01-06，如有侵权请联系 cloudcommunity@tencent.com 删除

框架

本文分享自凯哥讲故事系列微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度