首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DeepHub IMBA

    大模型如何训练百万 Token 上下文上下文并行与 Ring Attention

    模型大、上下文又长到几百万 Token,张量并行也顶不住。因为注意力的二次方内存增长太凶,激活值直接占满显存。128k 上下文的激活值内存是 8k 的 16 倍,这个目前没办法,因为就是这么夸张。 上下文并行更彻底:整个序列在所有模块里都切开,包括注意力。每个操作拿到的都是分区后的序列。百万上下文的训练就靠这个,把激活值的内存占用分摊到各卡上。 单卡装不下的百万级 Token 上下文,只有靠这个才能训。 Ring Attention 把 GPU 排成环,每张卡一边算当前数据的注意力,一边把键值对往下传。 上下文并行在所有模块里都切序列,包括注意力。超过 128k Token 的上下文必须用后者,因为激活值内存二次方增长太猛了。 那么训练百万级 Token 上下文的模型需要什么硬件? 多节点 GPU 集群,配 HBM 内存,加高速互连——NVIDIA NVLink 1.8TB/s 或者 InfiniBand。

    29610编辑于 2026-02-27
  • 来自专栏不二小段

    百万 Token 上下文并不可靠?Chroma 揭秘大模型「上下文腐烂」真相

    本文要点 • 超长上下文并非万能:尽管最新的大模型如 GPT-4.1、Gemini 2.5 宣称支持百万甚至千万级 Token,但它们的性能会随着输入长度的增加而显著下降,这种现象被称为「上下文腐烂」( 一个百万 Token 的上下文窗口意味着什么?它相当于一次性处理四本厚厚的书籍,或者数小时的会议录音。 它们处理上下文的方式并非始终如一,随着输入长度的增加,其表现会变得越来越不可靠。 换言之,你以为给了模型百万 Token 的上下文,它就能像超人一样处理所有信息。 解决问题的正确出路:「上下文工程」 既然百万 Token 的上下文窗口并不能保证可靠的性能,我们该怎么办? Chroma 的研究指向了一个关键结论:你需要工程化你的上下文。 理论上你可以使用多达一百万的 Token,但实际上,你的最佳上下文窗口要小得多。这变成了一个优化问题:你希望最大化相关信息的数量,同时最小化不相关内容的干扰。我们称这个过程为上下文工程。

    15710编辑于 2026-04-09
  • 百万 Token 上下文窗口的工程实现与实际瓶颈

    本文将探讨如何在工程上实现百万Token的上下文窗口,并分析其中的实际瓶颈。 对于百万Token的上下文窗口,我们需要考虑如何高效地存储和访问这些数据。常见的数据结构如列表、字典等在处理大规模数据时可能会遇到性能瓶颈。 分块处理和并行计算原理为了进一步提高处理效率,可以将百万Token的上下文分成多个小块,分别进行处理。这种分块处理的方式可以利用多线程或多GPU进行并行计算,从而加速整个处理过程。 总结实现百万Token上下文窗口的工程挑战主要集中在高效的数据结构和算法、稀疏注意力机制、分块处理和并行计算以及内存优化和显存管理等方面。 总结本文深入探讨了百万 Token 上下文窗口的工程实现与实际瓶颈的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    20810编辑于 2025-12-24
  • 来自专栏量子位

    百万token上下文窗口也杀不死向量数据库?CPU笑了

    有网友便列举了长上下文窗口的四大通病(四个V): Velocity(速度):基于Transformer的大型模型,在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。 Value(价值):长上下文窗口毕竟属于大力出奇迹,但它高支出的特点对于日常应用来说,在成本上是不切实际的。 高性能:单索引支持千亿级向量数据规模,可支持百万级 QPS 及毫秒级查询延迟。 低成本:只需简单操作就可以创建向量数据库实例,全流程平台托管,不需要额外的开销成本。 从这些特性不难看出,它恰好补齐了我们刚才提到的上下文窗口方式的一些短板。 借助这一项项突破,腾讯云VectorDB不仅支持多种索引类型和相似度计算方法,还具有单索引支持千亿级向量规模、百万级每秒查询率(Queries-per-second,QPS)及毫秒级查询时延等优势。

    46410编辑于 2024-03-20
  • 来自专栏大模型系列

    打造你的百万上下文AI智能体:OpenClaw深度集成DeepSeek V4全攻略—— 解锁 DeepSeek-V4 的百万上下文与 MoE 架构

    在众多可选模型中,DeepSeekV4以其万亿参数的MoE架构、百万token的超长上下文、卓越的代码与推理能力以及极具竞争力的开源与定价策略,成为了2026年最具吸引力的选择之一。 发送测试消息:选择该模型,并发送一条简单的消息,例如:“你好,请介绍一下你自己,并说明你当前的上下文长度是多少?” 观察响应:如果一切配置正确,您将收到来自DeepSeekV4的回复,并且它会自豪地告诉您它支持1,000,000tokens的上下文。 5.2利用超长上下文DeepSeekV4的百万token上下文是其杀手锏。在OpenClaw中,您可以通过Skills(技能)系统来充分利用这一点。 成本极低(根据官方信息,输出定价约为2元人民币/百万token),性价比极高。您可以根据任务需求,在OpenClaw中灵活切换这两个模型,甚至可以在同一个Agent的不同步骤中使用不同的模型。

    2.1K50编辑于 2026-04-24
  • 《记忆革命:Gemini 1.5如何让Transformer突破百万上下文枷锁》

    在传统Transformer架构中,上下文窗口如同一个狭窄的走廊——模型只能记住最近几百或几千个token,更早的信息被无情丢弃。 而Google DeepMind的Gemini 1.5却打破了这一宿命,首次实现百万级token的上下文处理能力,相当于让AI同时阅读《战争与和平》全集并记住每一个细节。 在极端测试中,Gemini 1.5展现出惊人能力: 长文档理解:准确回答百万token技术手册中的嵌套问题(如“第3章第5节提到的实验参数,在第8章的验证结果如何?”)。 Gemini 1.5的突破暗示了AI认知范式的转变: 传统模型将长上下文视为计算累赘,而Gemini证明:结构化记忆能转化为推理能力。

    35700编辑于 2025-05-29
  • Claude Opus 4.6 正式发布:百万级别上下文,秒了 GPT5

    与前代相比,Opus 4.6 在三个维度实现突破: 上下文革命:首次为 Opus 级别模型提供 1M token 超长上下文(Beta) Agent 能力跃迁:复杂任务规划、并行子任务执行、长时间会话维持 编程能力登顶:Terminal-Bench 2.0 评测中成为全球最强编码模型 二、核心技术创新详解 2.1 1M Token 超长上下文:从“记忆碎片”到“全量知识库” Opus 4.6 首次在 Opus 级别引入 1M token 上下文窗口(Beta),标准版仍为 200K,但已足够支撑: 完整代码仓库分析(10 万行+ 代码) 百页级法律/金融文档处理 跨会话长期记忆维持 关键突破:在 8-needle 七、总结与展望 7.1 Opus 4.6 的三大范式转移 维度 传统 LLM Opus 4.6 交互模式 问答式 自主规划 + 工具调用 上下文能力 短期记忆 全量知识库访问 任务复杂度 单步操作 多步骤工作流编排

    4.6K20编辑于 2026-04-09
  • 来自专栏掘金安东尼

    国内大模型 T1 —— Kimi,解析二百万上下文无压力

    两位百万?怎么做到的? 前段时间写过一篇文章:# GPT4-Turbor 128k ? 还不够?还不够! 记得 GPT4-T 的上下文参数量 128k,也就大概 100 万英文字符、50 万汉字字符,kimi 是如何做到 double 的? 真的能做到吗? 上下文的扩充有尽头吗? 白话来说就是将上下文提示语分块、分析、加权重、插入到提示,那么:如果能无限扩充上下文长度,RAG 技术还有意义吗? Kimi 背后原理,官网做出了解释:# Kimi Chat 公布“大海捞针”长文本压测结果 这里的“针”就是“大上下文提示语”的核心,我们需要提取的、解析的核心: 有几个有意思的数据: 1、GPT-4 两点: 1、数据的精准性-各行业 2、计算能力、解析能力-这里的大文本上下文解析就算!

    3.8K100编辑于 2024-03-23
  • 来自专栏量子位

    GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品

    上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 百万上下文窗口,可看1小时视频 在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。 在1百万token窗口的“插针”检索测试中,LWM取得了单针检索全绿的成绩。 它运用了“分而治之”的思想,将长文本分成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文

    44710编辑于 2024-02-22
  • 来自专栏天意云&天意科研云&天意生信云

    GPT 4.1 模型上线,支持百万token上下文,性能吊打 GPT 4o ,性价比超高!

    上下文:在评估多模态长上下文理解能力的 Video-MME 测试中,GPT 4.1 创下了新的最先进成绩——在长时长无字幕类别中得分 72.0%,比 GPT 4o 提高了 6.7 个百分点。 长上下文性能对于多模态应用场景同样重要,例如处理长视频。 超长上下文 除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档 此外,GPT 4.1 相较于 GPT 4o 在检索、记忆上下文信息方面更加精准。 许多开发者在处理长上下文时的应用场景时,需要在上下文中进行多次逻辑跳跃,比如代码时在多个文件之间跳转,或者在回答复杂的法律问题时进行文档间的交叉引用。

    88010编辑于 2025-04-16
  • DeepSeek-V4百万上下文来了,企业数据中心准备好了吗?

    上周DeepSeek-V4发布,1.6T参数的Pro和284B的Flash两个版本,原生支持百万token上下文,Agent评测成绩逼近前沿闭源模型,还在技术报告里明确写了昇腾NPU的适配验证。 存储也是一个容易被忽略的瓶颈——百万token的KVCache即使压缩过了,对读写速度的要求仍然很高。

    2200编辑于 2026-04-28
  • 来自专栏运维有术

    DeepSeek V4 发布:1.6T 参数、百万上下文,开源模型追平闭源

    它的野心不是在某个 benchmark 上多刷 1 个点,而是把百万 token 上下文从加价奢侈品变成默认配置。这篇文章,我会从技术架构、评测数据、定价策略三个维度把 V4 拆开来看。 当上下文拉到百万 token 级别,这个计算量会直接炸掉。之前的做法要么截断上下文,要么加价卖算力。DeepSeek V4 的思路不同。 打个比方:原来跑百万上下文需要 10 张卡,现在可能 1-2 张就够。这不是渐进式优化,是数量级的变化。 百万上下文的效率突破是实打实的架构创新,不是参数堆叠。编程能力追平闭源是开源模型的历史性时刻。定价策略对整个行业都是一个冲击。 如果你关注 Agent 生态,V4 的百万上下文 + MIT 开源组合,是目前很有竞争力的底座选择。你觉得 V4 的哪个特性对你最有吸引力?评论区见。

    8100编辑于 2026-04-28
  • 来自专栏贾志刚-OpenCV学堂

    百万token上下文登场,吞下整个代码库

    OpenAI的GPT-4.1提供百万token统一定价,但最强的GPT-5.4上下文窗口上限只有25.6万token。 因为它意味着,百万上下文已经从「实验功能」变成默认能力! 而百万上下文窗口,会把这一切推向更极端的地步。 首批用户的反馈已经很说明问题。 而百万级的上下文让他们可以一次性喂入完整的diff,用更简单的架构获得了更高质量的代码审查。 而有了百万上下文之后,搜索、聚合边界条件、提出修复方案,在一个窗口里就能全部完成。

    24310编辑于 2026-04-02
  • DeepSeek V4 技术架构深度解析:1.6万亿参数、百万上下文与三大核心突破

    一、发布概况:双版本齐发,百万上下文成标配 DeepSeek V4系列一次性推出两款MoE(混合专家)模型,全部原生支持100万Token超长上下文: 模型 总参数量 激活参数 预训练数据 上下文长度 关键定位:用更大的参数池承载更多知识,用更稀疏的激活控制推理成本,用全系标配的百万上下文把长文本处理从"高端功能"变成"基础设施"。 官方直言:从现在开始,一百万上下文将是DeepSeek所有官方服务的标配。 二、三大架构突破 2.1 混合注意力机制:CSA + HCA 这是V4最核心的创新。 ,后续扩展至1M——这种"先短后长"的上下文扩展策略也是V4能高效达成百万上下文的关键工程选择之一。 DeepSeek V4不是单一维度的参数竞赛,而是一次"参数规模 × 激活效率 × 上下文长度"三者重新平衡的系统性工程: 效率革命:百万Token上下文的推理成本降至前代的27%,让长文本应用真正普及

    1600编辑于 2026-04-28
  • 来自专栏AI大模型

    DeepSeek-V4来了:百万上下文为什么是开源模型的分水岭

    百万上下文如何实现? 这是此前大多数模型止步于128K-200K上下文的核心原因。DSA稀疏注意力的解决思路是什么? 从DeepSeek-V4开始,1M上下文将成为DeepSeek所有官方服务的标配。 这意味着:•整仓库代码分析:可以将完整的中大型代码库作为上下文输入•超长文档处理:支持数百页PDF、技术手册的一次性分析•多轮对话记忆:在Agent工作流中保持极长的任务上下文不丢失•跨文件重构:理解项目全局结构后做跨模块的代码重构 3.上下文配置:本地部署时1M上下文需要额外的显存规划,可根据实际需求调整最大上下文长度4.量化选项:对于显存受限的场景,可关注社区提供的量化版本DeepSeek-V4与竞品怎么选?

    21610编辑于 2026-04-27
  • 来自专栏又见苍岚

    上下文

    所以业务上下文变更需要慎之又慎。 运行程序上下文 大家应该对一句话有印象:(进程/线程)上下文切换开销很大。这里的上下文一般指的就是运行程序的上下文。 这里的通信问题就是进程上下文切换开销大的缘故。 方法/类所在的上下文(作用域) 方法上下文可以理解为方法所在的作用域。类亦如此。 还有一些比较特殊的概念实际上也是和方法上下文相关。 比如worker语言特性中,需要监听message事件,这实质上,就是在当前上下文监听另一个上下文的状态。再比如回调函数。实际上是因为上下文变更后,对原有上下文访问的一种编程手段。 从这个角度看,闭包实质上也是对上下文的一种操作手段:返回一个函数,该函数在当前上下文可以操作闭包上的上下文。 执行上下文:当函数或方法被调用时,它会创建一个执行上下文,这个上下文包括了局部变量、参数、返回地址等信息。在JavaScript等语言中,执行上下文还包括this的值。

    73410编辑于 2024-07-31
  • 来自专栏新智元

    百万token上下文能力碾压GPT-4

    1,000,000 token上下文能干啥? 众所周知,模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。 如今,谷歌成功把这个领域「卷」到了100万token(极限为1000万token),创下了最长上下文窗口的纪录。 在这个基础之上,很多之前难以想象的应用都成为了现实。

    31310编辑于 2024-02-26
  • 来自专栏深度学习与python

    刚刚,谷歌发布 Gemini 3:百万上下文 + 全链路 Agent直接封神!Claude 被秒成渣了

    它特别适用于需要:智能体性能、高级编码、长上下文和 / 或多模态理解,以及 / 或算法开发的应用。 Gemini 从一开始就旨在无缝整合任何主题的多模态信息,包括文本、图像、视频、音频和代码。 Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万上下文窗口,相比之下,Claude Sonnet 4.5 和 GPT 5.1 的最大输出量停留在数万或者数十万级别。 在他看来,未来系统将依赖更长上下文、更深的工具链整合以及更强的自动化能力去完成复杂工作流,而编码能力正是这一切的地基。 如果能推出一款产品,在内存容量、上下文窗口大小上超越 GPT-5.1将极具竞争力。 一旦技术性能的增长进入平台期,企业就必须通过功能创新实现差异化,或是通过降低成本来维持竞争力。

    1.2K21编辑于 2025-11-26
  • DeepSeek-V4-Pro 深度解析:一次面向百万上下文的开源大模型迭代

    KVCache是长上下文推理的最大成本来源——它随着上下文长度线性增长,直接吃掉显存。把它压到原来的十分之一,这是从"能跑1M上下文"到"能在合理硬件上跑1M上下文"的关键差别。 2.Manifold-ConstrainedHyper-Connections(mHC)为了让超深网络在百万上下文中依然保持稳定的信号传播,V4引入了流形约束超连接(mHC)。 ThinkMax模式下建议上下文窗口至少384K。 第二,长上下文的成本结构被改写了。27%FLOPs、10%KVCache是非常激进的数字。 如果工程实测能贴近这个理论值,DeepSeek-V4-Pro可能成为长文档处理、代码仓库分析等场景的默认选择,因为同样的硬件能跑更长的上下文,或者同样的上下文能服务更多并发。

    72320编辑于 2026-04-26
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    上下文瓶颈(ContextBottleneck):长文本处理成本高昂→DSA稀疏注意力。 提升长上下文稳定性:无论关键信息位于1MToken上下文的任何位置,Engram都能确保其被完整、无损地检索到。 第四章:第三大突破——DSA稀疏注意力:百万Token上下文的智能压缩引擎4.1挑战:O(n²)复杂度的诅咒标准的自注意力机制(Self-Attention)的计算和内存复杂度均为O(L²),其中L是序列长度 对于1MToken的上下文,这意味着需要处理1万亿个注意力权重,这在计算和内存上都是完全不可行的。 4.4革命性成果百万上下文平民化:V4原生支持1MToken上下文,并将其作为所有官方服务的标配。资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。

    36720编辑于 2026-04-24
领券