模型大、上下文又长到几百万 Token,张量并行也顶不住。因为注意力的二次方内存增长太凶,激活值直接占满显存。128k 上下文的激活值内存是 8k 的 16 倍,这个目前没办法,因为就是这么夸张。 上下文并行更彻底:整个序列在所有模块里都切开,包括注意力。每个操作拿到的都是分区后的序列。百万级上下文的训练就靠这个,把激活值的内存占用分摊到各卡上。 单卡装不下的百万级 Token 上下文,只有靠这个才能训。 Ring Attention 把 GPU 排成环,每张卡一边算当前数据的注意力,一边把键值对往下传。 上下文并行在所有模块里都切序列,包括注意力。超过 128k Token 的上下文必须用后者,因为激活值内存二次方增长太猛了。 Zig-Zag 把早期和晚期 Token 均匀撒到各卡上,避免这个问题。 那么训练百万级 Token 上下文的模型需要什么硬件?
本文将探讨如何在工程上实现百万Token的上下文窗口,并分析其中的实际瓶颈。 对于百万Token的上下文窗口,我们需要考虑如何高效地存储和访问这些数据。常见的数据结构如列表、字典等在处理大规模数据时可能会遇到性能瓶颈。 分块处理和并行计算原理为了进一步提高处理效率,可以将百万Token的上下文分成多个小块,分别进行处理。这种分块处理的方式可以利用多线程或多GPU进行并行计算,从而加速整个处理过程。 总结实现百万Token上下文窗口的工程挑战主要集中在高效的数据结构和算法、稀疏注意力机制、分块处理和并行计算以及内存优化和显存管理等方面。 总结本文深入探讨了百万 Token 上下文窗口的工程实现与实际瓶颈的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。
本文要点 • 超长上下文并非万能:尽管最新的大模型如 GPT-4.1、Gemini 2.5 宣称支持百万甚至千万级 Token,但它们的性能会随着输入长度的增加而显著下降,这种现象被称为「上下文腐烂」( 一个百万 Token 的上下文窗口意味着什么?它相当于一次性处理四本厚厚的书籍,或者数小时的会议录音。 它们处理上下文的方式并非始终如一,随着输入长度的增加,其表现会变得越来越不可靠。 换言之,你以为给了模型百万 Token 的上下文,它就能像超人一样处理所有信息。 解决问题的正确出路:「上下文工程」 既然百万 Token 的上下文窗口并不能保证可靠的性能,我们该怎么办? Chroma 的研究指向了一个关键结论:你需要工程化你的上下文。 理论上你可以使用多达一百万的 Token,但实际上,你的最佳上下文窗口要小得多。这变成了一个优化问题:你希望最大化相关信息的数量,同时最小化不相关内容的干扰。我们称这个过程为上下文工程。
一方面,以Claude 3、Gemini 1.5为代表的流派,陆续支持200K和100万token的上下文窗口,用大力出奇迹的方式让大模型能够精准检索到关键信息来提供准确答案。 有网友便列举了长上下文窗口的四大通病(四个V): Velocity(速度):基于Transformer的大型模型,在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。 高性能:单索引支持千亿级向量数据规模,可支持百万级 QPS 及毫秒级查询延迟。 低成本:只需简单操作就可以创建向量数据库实例,全流程平台托管,不需要额外的开销成本。 从这些特性不难看出,它恰好补齐了我们刚才提到的上下文窗口方式的一些短板。 借助这一项项突破,腾讯云VectorDB不仅支持多种索引类型和相似度计算方法,还具有单索引支持千亿级向量规模、百万级每秒查询率(Queries-per-second,QPS)及毫秒级查询时延等优势。
上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 百万上下文窗口,可看1小时视频 在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。 在1百万token窗口的“插针”检索测试中,LWM取得了单针检索全绿的成绩。 它运用了“分而治之”的思想,将长文本分成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文。 他们使用VQGAN将图像和视频帧转换为token,并与文本结合进行训练。
长上下文:在评估多模态长上下文理解能力的 Video-MME 测试中,GPT 4.1 创下了新的最先进成绩——在长时长无字幕类别中得分 72.0%,比 GPT 4o 提高了 6.7 个百分点。 与此同时,OpenAI 将 GPT 4.1 的输出 token 限制提高到 32768 个token(显著高于 GPT 4o 的 16384 个token)。 长上下文性能对于多模态应用场景同样重要,例如处理长视频。 超长上下文 除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档 许多开发者在处理长上下文时的应用场景时,需要在上下文中进行多次逻辑跳跃,比如代码时在多个文件之间跳转,或者在回答复杂的法律问题时进行文档间的交叉引用。
提升长上下文稳定性:无论关键信息位于1MToken上下文的任何位置,Engram都能确保其被完整、无损地检索到。 第四章:第三大突破——DSA稀疏注意力:百万Token上下文的智能压缩引擎4.1挑战:O(n²)复杂度的诅咒标准的自注意力机制(Self-Attention)的计算和内存复杂度均为O(L²),其中L是序列长度 4.3技术实现:LightningIndexer与动态Top-KDSA/CSA的工作流程如下:Token维度压缩:将每m个连续的Token的Key-Value(KV)对,通过一个轻量级的压缩函数(如平均池化或小型 然后,它会展开这些“超级条目”所对应的原始m个Token的KV对,并对它们进行完整的、标准的注意力计算。最终,计算复杂度从O(L²)成功降至O(L*K),其中K是一个很小的常数(例如64或128)。 4.4革命性成果百万上下文平民化:V4原生支持1MToken上下文,并将其作为所有官方服务的标配。资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。
谁能想到,就在同一天,Anthropic来了一发更大的: Claude Opus 4.6和Sonnet 4.6的百万token上下文窗口,正式全面上线。 如今,Anthropic用百万级的上下文窗口把这扇门彻底拆掉了。 但窗口撑大只是第一步。 真正的问题是:塞进去100万token,模型还能记住里面的细节吗? 横向对比来看: Google的Gemini 2.5 Pro同样支持百万token窗口,但超过20万token仍需支付溢价。 OpenAI的GPT-4.1提供百万token统一定价,但最强的GPT-5.4上下文窗口上限只有25.6万token。 因为它意味着,百万上下文已经从「实验功能」变成默认能力!
1,000,000 token上下文能干啥? 众所周知,模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。 如今,谷歌成功把这个领域「卷」到了100万token(极限为1000万token),创下了最长上下文窗口的纪录。 在这个基础之上,很多之前难以想象的应用都成为了现实。 对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理100万token的文本时达到99.7%的检索完整性。 甚至在处理高达1000万token的文本时,检索准确性仍然高达99.2%。 在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。 ,且无法处理超过128,000 token的文本,表现惨烈。
OpenAI 悄悄上线 GPT-5.1-Codex-Max,全网沸腾;而 Gateone.ai 早已为它装上“企业级调度引擎”——让百万token编程能力,真正为你所用。 GPT-5.1-Codex-Max 确实惊艳:✅ 综合编程能力登顶✅ 支持数百万 token 的超长上下文自助工作流✅ 新增【Extra High】思考模式,推理更深、代码更稳✅ 首次原生支持 Windows “百万token” ≠ “百万行代码都能跑通”虽然官方宣称支持超长上下文,但实际使用中:超大项目(如整套微服务代码库)输入后,模型常因上下文稀释丢失关键逻辑缺乏结构化代码感知,无法自动识别模块依赖、接口契约或测试覆盖率一旦出错 ✅ 智能上下文压缩与结构注入 Gateone 自动将代码仓库解析为 语义图谱(Semantic Graph),仅将关键模块、接口定义、测试用例注入上下文,避免 token 浪费。 ,百万 token 不浪费 ✨ 动态成本控制,贵模型只在关键时刻出手 ✨ 跨平台开发支持,Windows/Linux/macOS 无缝切换 ✨ 企业级安全与审计,代码生成即合规Gateone.ai ——
什么是上下文压缩?如何减少Token消耗?by@Laizhuocheng一、简介想象这样一个场景:你的客服机器人正在和用户对话,用户问了一个问题:"这款手机的电池续航怎么样?" 这就是上下文压缩要解决的核心问题:在保留关键信息的前提下,把输入token从几万降到几千,甚至几百。 Token消耗的现实压力:成本压力:GPT-4按0.03美元/1000token计费,一次2万token的调用就要0.6美元延迟压力:大模型处理长上下文需要更长时间,用户体验差上下文窗口限制:大多数模型的上下文窗口有限 二、什么是上下文压缩?上下文压缩(ContextCompression)是指在保证回答质量的前提下,减少输入上下文的token数量的技术。 六、总结与思考上下文压缩的本质是在保留关键信息的前提下减少token消耗,通过过滤、压缩、截断等技术手段,在成本、延迟和准确率之间找到最佳平衡点。
4月24日,DeepSeek-V4 预览版正式发布并同步开源,其核心亮点——百万Token(1M)超长上下文作为所有官方服务的标配,瞬间引爆了全球AI社区。 核心成就速览超长上下文:上下文窗口从 V3 的 128K Token 一举跃升至 1M Token,相当于一次可以处理《三体》三部曲体量的超长文本。 极致性价比:推理成本仅为 LLaMA-3-70B 的 1/70,V4-Flash 版本的输入价格低至 0.2元/百万Token。 DSA/NSA 稀疏注意力:让百万上下文成为可能处理百万Token的上下文,最大的挑战在于 注意力机制 的计算复杂度。 它通过“记忆-计算分离”的双轴稀疏设计,巧妙地绕开了大模型发展的传统瓶颈,将超长上下文、顶级性能和极致性价比融为一体。百万字长文对话只是起点。
Token效率:完成同等复杂度的任务,所需消耗的Token数量显著减少。OpenAICEOSamAltman强调:“每个任务消耗的token比5.4更少。”这是其应对高定价的核心论点。 1.3上下文窗口:百万Token级别GPT-5.5原生支持高达100万Token的上下文窗口。这使得它能够处理整本小说、大型代码库或复杂的多轮对话历史,为深度理解和长期记忆提供了坚实基础。 GPT-5.5的API定价策略引发了广泛关注:GPT-5.5:5/百万输入Token∗∗,∗∗5/百万输入Token**,**5/百万输入Token∗∗,∗∗30/百万输出Token。 对比GPT-5.4:2.5/百万输入Token∗∗,∗∗2.5/百万输入Token**,**2.5/百万输入Token∗∗,∗∗15/百万输出Token。价格直接翻倍。 这是一个典型的“以效率换价格”策略,旨在引导用户关注整体ROI(投资回报率)而非单纯的Token单价。
机器之心报道 机器之心编辑部 现在,第三方可以通过 API 将对话模型 ChatGPT 和语音转文本模型 Whisper 集成到自己的应用程序和服务中了。 2022 年 11 月,OpenAI 上线 ChatGPT,自此以后,这个对话模型一路开挂。毫不夸张的说,与 ChatGPT 相关的话题应该算是继 AlphaGo 以来,最出圈的人工智能热点了,推出仅仅两个月,月活用户就破亿,成为史上用户增长速度最快的消费级应用程序。 ChatGPT 的出现,让大家觉得,AI 似乎终于能够和人正常交流了,虽然有时候会出错
在众多可选模型中,DeepSeekV4以其万亿参数的MoE架构、百万token的超长上下文、卓越的代码与推理能力以及极具竞争力的开源与定价策略,成为了2026年最具吸引力的选择之一。 两个版本均原生支持100万token的超长上下文,并且同步开源了模型权重和技术报告,延续了DeepSeek一贯的开源普惠精神。其API服务也已同步开放。 发送测试消息:选择该模型,并发送一条简单的消息,例如:“你好,请介绍一下你自己,并说明你当前的上下文长度是多少?” 5.2利用超长上下文DeepSeekV4的百万token上下文是其杀手锏。在OpenClaw中,您可以通过Skills(技能)系统来充分利用这一点。 成本极低(根据官方信息,输出定价约为2元人民币/百万token),性价比极高。您可以根据任务需求,在OpenClaw中灵活切换这两个模型,甚至可以在同一个Agent的不同步骤中使用不同的模型。
在传统Transformer架构中,上下文窗口如同一个狭窄的走廊——模型只能记住最近几百或几千个token,更早的信息被无情丢弃。 而Google DeepMind的Gemini 1.5却打破了这一宿命,首次实现百万级token的上下文处理能力,相当于让AI同时阅读《战争与和平》全集并记住每一个细节。 Gemini 1.5通过三重颠覆性设计实现突破: 将KV Cache划分为“工作记忆”与“长期记忆”两层: 工作记忆:保留最近1万token的高精度KV向量,确保即时推理能力。 在极端测试中,Gemini 1.5展现出惊人能力: 长文档理解:准确回答百万token技术手册中的嵌套问题(如“第3章第5节提到的实验参数,在第8章的验证结果如何?”)。 Gemini 1.5的突破暗示了AI认知范式的转变: 传统模型将长上下文视为计算累赘,而Gemini证明:结构化记忆能转化为推理能力。
,总共包含 4560 亿个参数,每个 token 激活 459 亿个参数。M1 模型原生支持 100 万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。 此外,MiniMax-M1 中的闪电注意力机制使测试时计算能够高效扩展——例如,与 DeepSeek R1 相比,在生成长度为 10 万个 token 时,M1 仅消耗 25% 的 FLOPs。 模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和Qwen3-235B。 上下文窗口的开源推理模型。 虽然 Llama 4 系列支持 100 万/1000 万上下文,但 Meta 尚未发布任何 Llama 4 推理模型。
与前代相比,Opus 4.6 在三个维度实现突破: 上下文革命:首次为 Opus 级别模型提供 1M token 超长上下文(Beta) Agent 能力跃迁:复杂任务规划、并行子任务执行、长时间会话维持 编程能力登顶:Terminal-Bench 2.0 评测中成为全球最强编码模型 二、核心技术创新详解 2.1 1M Token 超长上下文:从“记忆碎片”到“全量知识库” Opus 4.6 首次在 Opus 级别引入 1M token 上下文窗口(Beta),标准版仍为 200K,但已足够支撑: 完整代码仓库分析(10 万行+ 代码) 百页级法律/金融文档处理 跨会话长期记忆维持 关键突破:在 8-needle 七、总结与展望 7.1 Opus 4.6 的三大范式转移 维度 传统 LLM Opus 4.6 交互模式 问答式 自主规划 + 工具调用 上下文能力 短期记忆 全量知识库访问 任务复杂度 单步操作 多步骤工作流编排
两位百万?怎么做到的? 前段时间写过一篇文章:# GPT4-Turbor 128k ? 还不够?还不够! 记得 GPT4-T 的上下文参数量 128k,也就大概 100 万英文字符、50 万汉字字符,kimi 是如何做到 double 的? 真的能做到吗? 上下文的扩充有尽头吗? 白话来说就是将上下文提示语分块、分析、加权重、插入到提示,那么:如果能无限扩充上下文长度,RAG 技术还有意义吗? Kimi 背后原理,官网做出了解释:# Kimi Chat 公布“大海捞针”长文本压测结果 这里的“针”就是“大上下文提示语”的核心,我们需要提取的、解析的核心: 有几个有意思的数据: 1、GPT-4 两点: 1、数据的精准性-各行业 2、计算能力、解析能力-这里的大文本上下文解析就算!
V4系列将1M(百万Token)超长上下文能力直接设为官方服务标配,并以前所未有的“价格屠夫”姿态宣布其推理定价:V4-Flash版本在缓存命中时,输入成本低至0.2元/百万Token。 2.3.3革命性成果百万上下文平民化:V4原生支持1MToken上下文,并将其作为所有官方服务的标配。 定价:输入1元/百万Token,输出12元/百万Token。DeepSeek-V4-Flash定位:高性价比版,面向广大开发者、中小企业和日常应用。架构:284B总参数,13B激活参数。 定价:输入0.2元/百万Token(缓存命中时),输出2元/百万Token。3.2成本结构拆解:为何能做到0.2元? 它用“0.2元/百万Token”的亲民价格,将曾经遥不可及的百万Token上下文能力,变成了触手可及的现实。其背后的“双轴稀疏架构”,不仅是技术上的精妙设计,更是对大模型发展范式的深刻反思与重构。