模型并行针对大模型:单卡装不下,就把模型拆开,不同的层放不同的卡上,按顺序跑。405B 这种规模只能这样,并且下游的卡得等上游算完中间是有空转的。 张量并行更极端:连单个矩阵乘法都塞不进一张卡。 模型大、上下文又长到几百万 Token,张量并行也顶不住。因为注意力的二次方内存增长太凶,激活值直接占满显存。128k 上下文的激活值内存是 8k 的 16 倍,这个目前没办法,因为就是这么夸张。 上下文并行更彻底:整个序列在所有模块里都切开,包括注意力。每个操作拿到的都是分区后的序列。百万级上下文的训练就靠这个,把激活值的内存占用分摊到各卡上。 Ring Attention 就是来解决这个问题的,让多节点多卡的大模型训练和推理能在大规模数据中心里跑起来。 那么训练百万级 Token 上下文的模型需要什么硬件? 多节点 GPU 集群,配 HBM 内存,加高速互连——NVIDIA NVLink 1.8TB/s 或者 InfiniBand。
本文要点 • 超长上下文并非万能:尽管最新的大模型如 GPT-4.1、Gemini 2.5 宣称支持百万甚至千万级 Token,但它们的性能会随着输入长度的增加而显著下降,这种现象被称为「上下文腐烂」( • 三大核心挑战:实验证明,在长上下文中,模型的性能会受到语义模糊性、干扰信息和上下文结构的严重影响,即使是简单的任务也会失败。 他们将这种随着输入 Token 增加,大模型性能逐渐下降甚至崩溃的现象,命名为上下文腐烂(Context Rot)。 它们处理上下文的方式并非始终如一,随着输入长度的增加,其表现会变得越来越不可靠。 换言之,你以为给了模型百万 Token 的上下文,它就能像超人一样处理所有信息。 Chroma 的研究正是从这里切入,设计了一系列实验,系统性地探究了上下文腐烂的成因。 大模型性能如何随着上下文变长而「腐烂」?
两位百万?怎么做到的? 前段时间写过一篇文章:# GPT4-Turbor 128k ? 还不够?还不够! 记得 GPT4-T 的上下文参数量 128k,也就大概 100 万英文字符、50 万汉字字符,kimi 是如何做到 double 的? 真的能做到吗? 上下文的扩充有尽头吗? 白话来说就是将上下文提示语分块、分析、加权重、插入到提示,那么:如果能无限扩充上下文长度,RAG 技术还有意义吗? Kimi 背后原理,官网做出了解释:# Kimi Chat 公布“大海捞针”长文本压测结果 这里的“针”就是“大上下文提示语”的核心,我们需要提取的、解析的核心: 有几个有意思的数据: 1、GPT-4 内部成员的回复: 思考: 以后的大模型比拼什么?两点: 1、数据的精准性-各行业 2、计算能力、解析能力-这里的大文本上下文解析就算!
一、项目概览DeepSeek-V4是DeepSeek团队推出的新一代开源混合专家(MoE)大语言模型系列。 二、三大架构升级DeepSeek-V4在架构层面相比V3.2做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。 2.Manifold-ConstrainedHyper-Connections(mHC)为了让超深网络在百万级上下文中依然保持稳定的信号传播,V4引入了流形约束超连接(mHC)。 它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是大模型"训得起来+训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。 这印证了一个趋势:当代大模型的能力上限,越来越多取决于推理时算力(test-timecompute),而非纯粹的参数规模。Non-Think模式则保留了快速响应路径,适合日常低风险任务。
特别是,当相关信息出现在输入上下文的开头或结尾时,性能往往最高,而当模型必须在长上下文中间获取相关信息时,性能会明显下降,即使是明确的长上下文模型也是如此。 这项研究的分析使人们更好地了解语言模型如何使用输入上下文,并为未来的长上下文语言模型提供了新的评估协议。 实验结果显示,模型在处理相关信息位于输入上下文的开头或结尾时表现最好,而当相关信息位于输入上下文的中间时,模型的表现显著下降。 因此,本研究提供了对语言模型如何使用输入上下文的更深入的理解,并为未来的长上下文语言模型提供了新的评估方法。 这篇论文的研究结果和分析提供了一个更好的理解语言模型如何使用其输入上下文,并为未来的长上下文模型提供了新的评估协议。
在大语言模型的使用中,“支持32k上下文”的意思是该模型可以处理并记住最多32,000个标记(tokens)的输入。这些标记通常是文本的最小组成部分,可以是一个字符、一个单词,或一个词组的部分。 GPT模型的上下文窗口在自然语言处理任务中,语言模型有一个“上下文窗口”(contextwindow)的概念。上下文窗口是模型能够记住的输入范围,超出这个范围的内容,模型将无法直接关联。 支持32k上下文的模型展示了未来大语言模型的发展方向,也给业界带来了更多思考空间。如何在保证高效推理的同时处理海量上下文信息,仍然是未来模型优化的重要方向。一种可能的技术优化方法是分层记忆机制。 随着GPT模型和其他大语言模型的不断演进,支持更大上下文窗口的能力将继续扩展。 它不仅提高了模型处理长文本和复杂任务的能力,还展示了大语言模型在各个领域中的广泛应用潜力。从法律文本分析、代码生成到复杂对话和长篇写作,32k上下文为这些任务提供了强大的支持。
最近,老婆又又又刷到一条新闻(PS:也不知道为什么总是看新闻):“大模型靠上下文理解能力碾压传统 AI!”她一脸懵地问我:上下文不是写作文要首尾呼应吗?难道 AI 还要学语文课? 而具备上下文能力的大模型,就像贴心的助理,立刻明白“她”指代上文的罗琳。上下文的本质想象一下,上下文能力让 AI 拥有了“时间线管理术”。它不仅能记住你说过的话,还能像侦探一样串联线索。 但传统模型有三大死穴:失忆症晚期:传统模型处理完上句话立刻“格式化记忆”。比如你说“我海鲜过敏”,5 秒后问“推荐三亚美食”,它可能脱口而出“龙虾刺身”。逻辑断裂:无法理解跨句子的隐藏联系。 上下文的秘诀大模型实现上下文能力的核心,是靠两大法宝:1. 注意力织布机(Attention):自动给关键信息打高光。 上下文的局限但上下文能力并非无懈可击,仍有三大难关:记忆长度有限:就像人类只能记住最近 7 件事,以DeepSeek为例,推理模型和对话模型的最大上下文窗口均为64K tokens(约6万多个汉字),
至于 长上下文多模态场景 的大模型应用,虽然归为“浅水区”方向,但它的复杂度介于两者之间:比智能客服复杂,但又不如深水区需要极高的策略设计能力。 本文将以Qwen-long 为例,详细展示如何在 长上下文多模态场景 中发挥大模型的潜力。 需求场景为了深入展示 长上下文多模态大模型 在实际场景中的应用潜力,我们以 招标文档解读 作为示例,探索如何利用大模型高效解析长篇复杂文档并提取核心信息。 长上下文与多模态技术的基本原理长上下文(Long Context)技术旨在使模型能够处理和理解超长文本序列。传统的自然语言处理模型通常受限于固定的上下文窗口,无法有效捕捉长距离依赖关系。 长上下文技术通过优化模型架构和训练方法,扩展模型的上下文窗口,使其能够在处理如长篇文章、技术文档或代码库时,保持对全局信息的理解和连贯性。
从百万Token上下文成为标配,到原生多模态与电脑控制能力成熟,再到AI智能体(Agent)从概念走向规模化商用,大模型正式告别“参数内卷”,进入效率优先、场景为王、生态重构的实用主义时代。 Anthropic Claude 4.6:百万上下文免费开放,多模态能力跃升 Anthropic于3月25日更新Claude 4.6,最大亮点是取消100万Token上下文的长文本溢价,用户可免费使用超长文本处理功能 在编程场景中,Claude 4.6可直接生成完整项目代码、排查复杂Bug,配合百万上下文,能轻松处理大型代码库的重构与优化,成为程序员的“高效助手”。 上下文:百万Token成标配,超长文档处理常态化 无论是海外巨头还是国产厂商,3月发布的新版本均已支持百万Token上下文窗口,具体对比如下: 模型名称 上下文窗口 核心优势 GPT- 百万上下文、原生多模态、Agent能力成熟,标志AI正式从“炫技”走向“实用”,成为重构全球产业与生活方式的核心引擎。
背景 在过去几年里,逐渐膨胀的大模型上下文,使得LLM的性能受到巨大的挑战。另外,LLM的上下文窗口有限,也使得其丢失记忆的情况很常见。 丢失细节比较容易理解,而大模型的性能,会因为压缩的上下文所提供的背景信息,以及本身也在逐渐膨胀的消息列表,仍然会比较低。 因此,寻找一种更优的大模型上下文工程方案,是我本篇文章的目标。 保留聊天的细节,让大模型记忆不丢失,甚至得到增强。2. 大模型性能不受损。关注我的公众号 wwwtangshuangnet,一起探讨Agent架构优化。 在当前的所有方案中,它们需要输出非常长的聊天历史,来遵照大模型的API接口设计。但是,目前公开研究发现,丢掉所有聊天历史,在没有历史记忆的情况下,大模型所驱动的Agent会有更准确的效果表现。 但是,这并不绝对,因为通过精准的意图识别,可以减少上下文的长度,剔除无用的信息,这又可以提升大模型首个token响应时间。
for Large-scale Learning)是一个高效且用户友好的强化学习库,专为不同类型用户设计,它不仅能够在各种硬件资源条件下高效完成多样化的训练目标,还特别针对需要大规模 GPU 资源的大语言模型 ROLL在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了大语言模型的性能。 (4)质陪解决方案由中关村科金得助智能开发,创造性地融合成熟的AI大模型质检与陪练系统,推出了全面高效的“质陪解决方案”。智能质检采用大小模型结合的方式,对销售人员的销售行为进行全方位监测和分析。 (5)上下文工程上下文工程指通过为任务提供完整的背景信息,让大模型能够合理解决问题。在AI智能体的兴起发展过程中,上下文工程才是决定大多数AI智能体成败的关键而并非模型。 上下文工程致力于设计和构建动态系统而并非字符串,这些系统在恰当的时机提供信息和工具,从而让LLM拥有完成任务所需的一切。
宣布新一代 GPT 4.1 系列模型上线,此次新模型分为3个版本 —— GPT 4.1(主力旗舰)、GPT 4.1 mini(高效轻量)、GPT 4.1 nano(超小型极速),目前只能通过 API 访问 OpenAI 开发了一个用于评估模型指令遵循能力的内部评估系统,涵盖多个维度和几个关键类别,包括: 格式遵循:要求模型以特定格式(如 XML、YAML、Markdown 等)输出。 长上下文性能对于多模态应用场景同样重要,例如处理长视频。 超长上下文 除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档 许多开发者在处理长上下文时的应用场景时,需要在上下文中进行多次逻辑跳跃,比如代码时在多个文件之间跳转,或者在回答复杂的法律问题时进行文档间的交叉引用。
如何让自己使用的大模型能够像 Manus 一样,胜任各种复杂任务,应该采取哪些措施? 这就需要一种方法把各种工具和助手整合到一起。 01—什么是模型上下文协议 MCP(模型上下文协议)是一种大模型时代出现的开放协议,旨在标准化应用程序向大型语言模型 (LLMs) 提供上下文(数据)的方式。 例如,这是一个 PostgreSQL MCP Server 工具,可以让大模型能够基于 PostgreSQL 中的数据来回答问题。 如果使用API让大模型与外部工具对接,开发者需要为每个API编写独立的代码,包括文档解析、认证方式、错误处理和后期维护,费时又费力。 通过分离模型、上下文和协议,开发人员可以: 在不破坏整个系统的情况下更换不同的 AI 模型。 动态地引入新的上下文(例如,使 NLP 模型适应新的语言或行业)。 为 AI 模型编排定义强大的协议。
在 DeepSeek-V4 问世之前,大模型领域长期被两大“魔咒”所困扰:规模魔咒 (Scale Curse):模型参数越大,训练过程就越像在搭建一座违章建筑,稍有不慎就会“塌方”(训练不稳定)。 此外,参数效率与上下文长度之间也存在着不可调和的矛盾。传统稠密架构的大模型,在处理长文本时,面临着算力利用率低、显存开销巨大、关键信息易丢失等核心痛点。 DSA/NSA 稀疏注意力:让百万上下文成为可能处理百万Token的上下文,最大的挑战在于 注意力机制 的计算复杂度。 中小企业、个人开发者甚至高校实验室,都能以极低的门槛使用百万上下文的顶级模型,极大地加速了AI应用的创新和落地。重塑行业工作流:法律:律师可以一次性上传整本案卷,让AI进行深度分析和摘要。 它通过“记忆-计算分离”的双轴稀疏设计,巧妙地绕开了大模型发展的传统瓶颈,将超长上下文、顶级性能和极致性价比融为一体。百万字长文对话只是起点。
大模型的长上下文与 RAG 以下是本文的主要发现: 在问答基准测试中,LC 的表现通常优于 RAG 基于摘要的检索与 LC 性能相当,而基于块的检索则落后 RAG 在基于对话和一般性问题查询方面具有优势
什么是上下文工程? “上下文工程”是指为大语言模型设计和构建一整套动态的信息生态,让模型在推理时能够获取充分且相关的上下文,以更可靠地完成任务。 这些方法可以在不超出模型上下文窗口限制的情况下,让模型处理百万级别长度的内容 。举例来说,我们可以把一本书分章摘要,然后把摘要再摘要,逐级压缩成模型能消化的长度,同时尽量保留关键信息。 上下文工程关注如何统一处理多模态信息并让模型结合它们进行推理 。当前,多模态大模型(如 GPT-4V 等)的出现正是朝着让模型直接处理多模态上下文迈进了一步 。 大模型上下文方案往往计算和存储代价高昂,要在生产环境中部署,需要解决延迟、吞吐量和成本之间的权衡 。 总之,只有正视并解决好以上部署与社会影响层面的挑战,才能确保大模型上下文工程技术以安全、可靠、负责任的方式服务于社会。 总结 总的来说:上下文工程就是帮大模型“吃好、消化好”信息的艺术与科学。
在刚刚举行的 ICLR 2024 大会上,智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势,同时预告了GLM的后续升级版本。 今天,智谱大模型开放平台(bigmodel.cn)上线了新的价格体系。入门级产品 GLM-3 Turbo 模型调用价格下调80%!从5元/百万tokens降至1元/百万tokens。 GLM-3 Turbo(最大支持 128k)是大模型开放平台最受欢迎的模型产品,不仅速度快,而且适用于对知识量、推理能力、创造力要求较高的场景,此次调价后更具竞争力,国内其他128k级别大模型的调用价格大多从百万 企业级产品 GLM-4/GLM-4V 价格仍维持在 0.1元/千 tokens,百万tokens的价格为100元,但作为一款能力逼近GPT-4的国内领先大模型,这一价格还是比较能打。 例如,从基础设施来看,随着一些老款AI芯片(比如 Nvidia A100 )降价,大模型培训成本下降了约60%。英伟达也优化了软件性能,帮助开发者更快训练和运行大模型。
2026年3月,全球大模型领域迎来颠覆性变革——国产模型实现全球调用量反超,百万上下文从“实验室概念”变成“工业级标配”,Agent智能体摆脱“玩具级应用”,正式进入千行百业。 ,开发者可直接调用 (3)小米MiMo-V2-Pro(百万上下文标杆) 核心参数:激活参数42B,总参数1万亿,上下文长度支持100万Token(行业首个稳定支持百万Token的国产模型),推理速度 百万Token上下文成标配,长文本处理天花板被打破(核心技术解析) 此前,大模型的上下文长度普遍在10-32K Token,只能处理短篇文本,无法满足长文档、长视频、多轮对话等场景需求。 2026年3月,百万Token上下文成为主流,核心原因是“混合注意力架构”和“稀疏MoE技术”的成熟应用,彻底解决了长上下文处理的“计算复杂度高、延迟高、记忆精度低”三大痛点。 (2)辅助技术:稀疏MoE(混合专家模型)的规模化应用 稀疏MoE技术并非新技术,但2026年3月实现了“动态路由+领域专家库”的优化,成为百万上下文落地的关键辅助技术: 动态路由:根据输入文本的类型
两款模型均采用 MIT 协议完全开源,权重已上传 HuggingFace。2. CSA + HCA:百万上下文的秘密V4 最大的技术突破,是一套全新的混合注意力架构。 图 3:V4 vs V3.2 效率对比(百万 token 上下文)3. mHC 和 Muon:训练稳定性的两道保险CSA+HCA 解决了推理效率问题,但训练一个 1.6T 参数的模型本身也是个大工程。 技术报告指出,Muon 在大模型训练中收敛更快、稳定性更好。来源:技术报告 Section 2.4 + Algorithm 1Adam 系列在大模型训练里几乎是默认配置,换掉它需要相当的工程勇气。 百万 token 上下文从少数人用得起变成人人用得起,这对 Agent、RAG、长文档分析等场景有实质性的推动。编程能力追平闭源。Codeforces 3206 是开源模型的历史性突破。 百万上下文的效率突破是实打实的架构创新,不是参数堆叠。编程能力追平闭源是开源模型的历史性时刻。定价策略对整个行业都是一个冲击。
模型上下文协议模型上下文协议(Model Context Protocol,简称 MCP)是一种开放标准,旨在标准化大型语言模型(LLM)与外部数据源和工具之间的交互方式。 MCP 的核心功能与用途上下文管理统一管理模型的输入输出、环境变量、历史状态等上下文信息,确保跨任务或跨节点的数据一致性。例如:在多步推理任务中,保持对话历史或中间结果的连贯性。 资源协调在分布式系统中动态分配计算资源(如 GPU、内存),优化模型运行效率。例如:根据实时负载调整多个模型的优先级。模型协作支持多模型协同工作,通过共享上下文实现复杂任务的分工与集成。 例如:在自动驾驶中,视觉模型和决策模型共享实时环境数据。动态适应根据上下文变化自动调整模型参数或行为。例如:推荐系统根据用户实时行为更新推荐策略。 实时流处理处理连续数据流时,维护时序上下文(如视频分析、IoT传感器数据)。例如:实时视频监控中跟踪目标物体的运动轨迹。多模态任务整合文本、图像、语音等多模态模型的上下文信息。