首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >凯哥 丨 字节跳动:大模型以后不按“字数”收费,按“重点”收费 ?

凯哥 丨 字节跳动:大模型以后不按“字数”收费,按“重点”收费 ?

作者头像
凯哥
发布2026-01-13 14:00:32
发布2026-01-13 14:00:32
2390
举报

欢迎大家关注“凯哥讲故事系列”公众号,我是凯哥

给你最本质,最实战的数字化转型指南

0

大模型时代的预算死亡现场

大贵收到一封内部邮件,标题很短,杀伤力很大:

《本周起:推理服务限流》

邮件正文更短:

·GPU 用量超标

·预算燃尽提前 18 天

·业务侧请“减少无意义调用”

·技术侧请“优化 prompt、降低 token”

大贵看完就笑了,笑得有点冷:

大贵:你看,AI 还没替代人类,人类先被 AI 的账单替代了。

大富:这就是今天的大模型:不是不会干活,是太爱逐字表演。

大贵:表演得越认真,账单越像判决书。

2

DLCM 这篇论文干了件“非常人话”的事

2025 年 12 月 31 日,arXiv 出了一篇论文:DLCM(Dynamic Large Concept Models)。名字很学术,但它讲的道理特别人话:

一句话讲透:

现在的大模型最大的浪费,是“每句话里,废话和重点用了一样多的脑子”。

传统模型像一个员工:

·“的、了、啊、嗯”也要认真想;

·“但是、所以、关键在于”也要认真想;

·每个字同价。

DLCM 说:不行。语言里有大量“可预测的铺垫”,

真正值钱的是“语义拐点”(转折、因果、结论)。

所以模型要学会把一串字压缩成“概念块(concept)”,废话轻算、重点深算。

论文还给了一个非常直白的结果:在平均“4 个 token ≈ 1 个概念块”的设定下,把约 1/3 的推理计算挪给更强的推理骨干,在 12 个 zero-shot 基准上平均提升 2.69%(同等推理预算)。

大富:以前是“按字数结算”。

大贵:现在它说:不,应该“按重点结算”,或“按价值结算”。

2

两个比喻把 DLCM 讲到路人都懂

比喻 1:逐粒嚼米 vs 吃到骨头才啃

你对员工说:

方案大体可行,但关键风险在合规;先上试点,再放量。

传统大模型像“逐粒嚼米”:每个字都嚼 30 下。成熟员工是“吃到骨头才啃”:

·关键风险:合规

·策略:试点→放量

DLCM 就是要让模型学会:米饭别嚼了,骨头才值得嚼。

比喻 2:仓库搬货——空纸箱和保险柜一个价?

旧模型像仓库全靠人工搬:空纸箱也两个人抬,保险柜也两个人抬,结果老板买单买到破产。

DLCM 把仓库改造为:空纸箱叉车一推就走(轻算),保险柜叫专业队伍慢慢拆(重算)。一句话:算力终于有了等级制度。

3

三张“一眼懂”的示意图

图 1:旧模型 vs DLCM——“每个字同价” vs “按重点计费”

旧模型(Token 平权社会) [这][个][方][案][大][体][可][行][但][关][键][风][险][在][合][规] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (每个字都收费) DLCM(重点计费社会) [铺垫/客套/可预测段] ——轻算→→ [但是/所以/关键在于/结论段] ——重算↓↓↓

图 2:仓库逻辑——为什么会“聊穷”

旧仓库(全人工) 空纸箱 ──两个人抬──> 也收费 保险柜 ──两个人抬──> 也收费 结论:成本跟“搬了多少东西”走,不跟“值不值钱”走 新仓库(DLCM) 空纸箱 ──叉车推走──> 便宜 保险柜 ──专业队拆──> 贵但值 结论:成本跟“重点”走

图 3:未来三年成本战争——三波浪潮

2026 省钱模式:废话不配用算力 ↓ 2027 精读模式:长上下文从“能塞下”变成“会读懂” ↓ 2028 治理模式:推理/Agent 的“想多久、想多深”变成可运营成本

4

行业影响:这不是比谁“更聪明”,这是比谁“更会花钱”

大贵:以前模型比聪明。

大富:以后模型比“谁更像成熟员工”。

影响 1:竞争从“模型大小”转向“算力调度能力”

同样预算,谁能把算力从“水词”挪到“拐点”,谁更强更便宜。

影响 2:长上下文进入“精读时代”

2M 字不是能力,从 2M 字里自动挑出 20% 的关键段落深算才是能力。

影响 3:推理模型进入“算力治理时代”

推理模型的最大问题是:一认真就加班,一加班就烧钱。DLCM 的方向是:别到处想,在关键处想深一点。

5

字节调性是什么?

如果说“行业学 DLCM 是为了更强”,那“字节学 DLCM 可能首先是为了更省”,这也是典型的“字节调性“”

大富:字节不是最爱论文的公司。

大贵:字节是最爱把论文变成“成本曲线”的公司。

字节公开的很多硬论文,讲的都是同一件事:怎么把大模型做成工厂——能练出来、练得稳、练得久、练得起规模。

2025-12:DLCM(算力从“按字”到“按重点”)

  • 2025-12:RobustRL(RL 后训练的生产级容错)
  • 2025: ByteRobust(20 万 GPU 平台上的连续训练稳定性)
  • 2025: ByteScale(2048K 长上下文 + 12,000+ GPU 混训提效)
  • 2025: MegaScale-MoE(MoE 生产训练系统)
  • 2025: Seed1.5-VL(多模态 MoE:60 个基准里 38 个 SOTA 的说法)
  • 2025: Seedream 2.0(中英双语图像生成+文字渲染等能力)
  • 2025: SuperGPQA(285 学科研究生级评测基准)
  • 2024:FullStack Bench(全栈代码评测 + 沙箱执行 SandboxFusion)
  • 2024: Seed-Music(音乐生成与编辑统一框架)
  • 2024: MegaScale(NSDI)(万卡训练系统工程经验)
  • 这串下来你会发现:

模型能力当然做,但更高频、更硬核的是“基础设施与生产体系”——因为那决定了它能不能把研究变成利润,比如:

A)最新爆点:把计算单位从 token 改成 concept

  1. DLCM: Dynamic Large Concept Models (2512.24617, 2025-12-31)
  2. 核心:学习可变长概念边界,在 concept 空间做深推理;提出 compression-aware scaling law;同 FLOPs 平均 +2.69%。

B)推理与 RL:把“会答题”变成“会做事”

  1. Seed1.5-Thinking (2504.13914, 2025)
  2. 核心:通过 RL 让模型“先想再答”,在 AIME/Codeforces/GPQA 等推理与代码指标上给出强结果。
  3. Role-Based Fault Tolerance System for LLM RL Post-Training (2512.22492, 2025-12)
  4. 核心:RL 后训练把训练与推理交织,提出按角色隔离与 Detect-Restart-Reconnect 的鲁棒系统(RobustRL)。

C)多模态与生成:把模型变成内容工厂的“机床”

  1. Seed1.5-VL Technical Report (2505.07062, 2025)
  2. 核心:532M 视觉编码器 + 20B active MoE;报告称在大量公开 VLM 基准上取得强表现,并覆盖 agent 类任务。
  3. Seedream 2.0 (2503.07703, 2025)
  4. 核心:中英双语图像生成 + 文字渲染;数据系统、caption 系统、Glyph 对齐等,并提到多阶段后训练与 RLHF。
  5. Seed-Music (2409.09214, 2024)
  6. 核心:音乐生成与编辑统一框架,结合自回归与扩散,覆盖受控生成与后期编辑工作流。

D)评测与基准:给产品迭代立“靶场”

  1. SuperGPQA / Scaling LLM Evaluation across 285 Graduate Disciplines (2502.14739, 2025)
  2. 核心:285 学科、26,529 题的研究生级评测;人类-LLM 协同过滤机制提升题目质量。
  3. FullStack Bench (2412.00535, 2024)
  4. 核心:面向真实全栈编程的多语言基准 + 沙箱执行工具(SandboxFusion),强调“能跑起来”的评测。

E)训练系统与生产工程:把“烧算力”变成“工业生产”

  1. MegaScale (2402.15627, 2024, NSDI’24)
  2. 核心:>10,000 GPU 训练系统;强调可观测性、稳定性、容错与 straggler 缓解;给出 175B 在 12,288 GPU 上 MFU 55.2% 的结果。
  3. Understanding Stragglers… What-if Analysis (2505.05713, 2025)
  • 核心:基于五个月训练集群 trace 的 straggler 系统研究与 what-if 分析方法。
  1. ByteScale (2502.21231, 2025)
  • 核心:面向 256K–2048K 长上下文的混合训练框架;动态 mesh + HDP;在 12,000+ GPU 集群上最多 7.89× 提升。
  1. MegaScale-MoE (2505.11432, 2025)
  • 核心:MoE 大规模训练的通信效率与系统设计,瞄准“参数更大但激活更省”的可经营路线。
  1. ByteRobust: Robust LLM Training Infrastructure at ByteDance (2509.16293, 2025)
  • 核心:面向连续训练的鲁棒系统;论文摘要提到在 200,000 GPU 平台部署,并给出长任务 ETTR 指标(例如 9,600 GPU、三个月训练等)。

大富:

这 13 篇要是放在别家公司,是“研究成果”。

大贵:

放在字节,这是“生产线说明书 + 产品线目录”。

所以 字节发表DLCM 这种“按重点计费”的方法,在字节最可能按这个顺序落地:

·先在线推理降本:同样机器多跑用户、同样延迟更准

·再长内容精读:直播、评论楼、长文——只在关键段落深算

·最后嫁接推理模型:让“先想再答”变成“在关键处想深一点”

6

未来三年:AI 成本战争的三波预测

大富:未来三年,AI 最大战争不是参数战争。

大贵:是账单战争。

第一波(2026):废话不配用算力

宣传口径会从“更聪明”变成:同价更快 / 同延迟更准 / 同机器并发更高。

第二波(2027):长上下文进入精读

竞争不在“谁能塞 2M”,而在“谁能把 2M 里最值钱的 20% 抠出来深算”。

第三波(2028):推理与 Agent 的算力治理

“想多久、想多深”变成可运营成本。企业会像管人一样管模型:该想就想,不该想别演,关键节点必须想对。

7

一句狠话

大富:以前大模型收费像出租车,按里程计费。

大贵:DLCM 说不,应该按“你有没有到目的地”计费。

大富:而字节最危险的地方在于——一旦它认定“钱烧错了地方”,它会把“正确烧钱的方法”,做成行业标准。

富贵研究所,是「凯哥讲故事」旗下的产业观察栏目与长期研究计划。

聚焦 AI 时代的产业变化,把技术进展转化为更易理解的行业语言:通过真实场景、关键事件与可验证的推演,分析商业模式、组织分工与新型入口的演化方向。每篇文章力求做到三点:讲清趋势、讲透逻辑、给出可落地的参考框架。文中偶尔引用“大富”“大贵”的一句点评,作为观察视角的点睛。

欢迎关注富贵研究所,一起把变化看懂、把选择做稳。

欢迎加入「富贵研究所」

洞察 AI 时代,找到富贵之路

END

AI 转型交付式咨询服务

场景培育交付式咨询服务

企业数字化转型/场景识别、共创、落地

精益数据训练营/解决方案架构师特训营

从数据到价值:精益数据工作坊

数字化咨询教练陪跑服务:

数字化转型规划 | 顶层设计 |企业创新与运营

IT战略规划 | IT服务管理体系 | 数据治理

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 凯哥讲故事系列 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0
  • 大模型时代的预算死亡现场
  • 2
  • DLCM 这篇论文干了件“非常人话”的事
  • 2
  • 两个比喻把 DLCM 讲到路人都懂
    • 比喻 1:逐粒嚼米 vs 吃到骨头才啃
    • 比喻 2:仓库搬货——空纸箱和保险柜一个价?
  • 3
  • 三张“一眼懂”的示意图
    • 图 1:旧模型 vs DLCM——“每个字同价” vs “按重点计费”
    • 图 2:仓库逻辑——为什么会“聊穷”
    • 图 3:未来三年成本战争——三波浪潮
  • 4
  • 行业影响:这不是比谁“更聪明”,这是比谁“更会花钱”
    • 影响 1:竞争从“模型大小”转向“算力调度能力”
    • 影响 2:长上下文进入“精读时代”
    • 影响 3:推理模型进入“算力治理时代”
  • 5
  • 字节调性是什么?
    • 2025-12:DLCM(算力从“按字”到“按重点”)
    • B)推理与 RL:把“会答题”变成“会做事”
    • C)多模态与生成:把模型变成内容工厂的“机床”
    • D)评测与基准:给产品迭代立“靶场”
    • E)训练系统与生产工程:把“烧算力”变成“工业生产”
  • 6
  • 未来三年:AI 成本战争的三波预测
    • 第一波(2026):废话不配用算力
    • 第二波(2027):长上下文进入精读
    • 第三波(2028):推理与 Agent 的算力治理
  • 7
  • 一句狠话
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档