模型并行针对大模型:单卡装不下,就把模型拆开,不同的层放不同的卡上,按顺序跑。405B 这种规模只能这样,并且下游的卡得等上游算完中间是有空转的。 张量并行更极端:连单个矩阵乘法都塞不进一张卡。 模型大、上下文又长到几百万 Token,张量并行也顶不住。因为注意力的二次方内存增长太凶,激活值直接占满显存。128k 上下文的激活值内存是 8k 的 16 倍,这个目前没办法,因为就是这么夸张。 上下文并行更彻底:整个序列在所有模块里都切开,包括注意力。每个操作拿到的都是分区后的序列。百万级上下文的训练就靠这个,把激活值的内存占用分摊到各卡上。 Ring Attention 就是来解决这个问题的,让多节点多卡的大模型训练和推理能在大规模数据中心里跑起来。 那么训练百万级 Token 上下文的模型需要什么硬件? 多节点 GPU 集群,配 HBM 内存,加高速互连——NVIDIA NVLink 1.8TB/s 或者 InfiniBand。
本文要点 • 超长上下文并非万能:尽管最新的大模型如 GPT-4.1、Gemini 2.5 宣称支持百万甚至千万级 Token,但它们的性能会随着输入长度的增加而显著下降,这种现象被称为「上下文腐烂」( • 三大核心挑战:实验证明,在长上下文中,模型的性能会受到语义模糊性、干扰信息和上下文结构的严重影响,即使是简单的任务也会失败。 他们将这种随着输入 Token 增加,大模型性能逐渐下降甚至崩溃的现象,命名为上下文腐烂(Context Rot)。 它们处理上下文的方式并非始终如一,随着输入长度的增加,其表现会变得越来越不可靠。 换言之,你以为给了模型百万 Token 的上下文,它就能像超人一样处理所有信息。 Chroma 的研究正是从这里切入,设计了一系列实验,系统性地探究了上下文腐烂的成因。 大模型性能如何随着上下文变长而「腐烂」?
两位百万?怎么做到的? 前段时间写过一篇文章:# GPT4-Turbor 128k ? 还不够?还不够! 记得 GPT4-T 的上下文参数量 128k,也就大概 100 万英文字符、50 万汉字字符,kimi 是如何做到 double 的? 真的能做到吗? 上下文的扩充有尽头吗? 白话来说就是将上下文提示语分块、分析、加权重、插入到提示,那么:如果能无限扩充上下文长度,RAG 技术还有意义吗? Kimi 背后原理,官网做出了解释:# Kimi Chat 公布“大海捞针”长文本压测结果 这里的“针”就是“大上下文提示语”的核心,我们需要提取的、解析的核心: 有几个有意思的数据: 1、GPT-4 内部成员的回复: 思考: 以后的大模型比拼什么?两点: 1、数据的精准性-各行业 2、计算能力、解析能力-这里的大文本上下文解析就算!
一、项目概览DeepSeek-V4是DeepSeek团队推出的新一代开源混合专家(MoE)大语言模型系列。 二、三大架构升级DeepSeek-V4在架构层面相比V3.2做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。 2.Manifold-ConstrainedHyper-Connections(mHC)为了让超深网络在百万级上下文中依然保持稳定的信号传播,V4引入了流形约束超连接(mHC)。 它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是大模型"训得起来+训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。 这印证了一个趋势:当代大模型的能力上限,越来越多取决于推理时算力(test-timecompute),而非纯粹的参数规模。Non-Think模式则保留了快速响应路径,适合日常低风险任务。
特别是,当相关信息出现在输入上下文的开头或结尾时,性能往往最高,而当模型必须在长上下文中间获取相关信息时,性能会明显下降,即使是明确的长上下文模型也是如此。 这项研究的分析使人们更好地了解语言模型如何使用输入上下文,并为未来的长上下文语言模型提供了新的评估协议。 实验结果显示,模型在处理相关信息位于输入上下文的开头或结尾时表现最好,而当相关信息位于输入上下文的中间时,模型的表现显著下降。 因此,本研究提供了对语言模型如何使用输入上下文的更深入的理解,并为未来的长上下文语言模型提供了新的评估方法。 这篇论文的研究结果和分析提供了一个更好的理解语言模型如何使用其输入上下文,并为未来的长上下文模型提供了新的评估协议。
在大语言模型的使用中,“支持32k上下文”的意思是该模型可以处理并记住最多32,000个标记(tokens)的输入。这些标记通常是文本的最小组成部分,可以是一个字符、一个单词,或一个词组的部分。 GPT模型的上下文窗口在自然语言处理任务中,语言模型有一个“上下文窗口”(contextwindow)的概念。上下文窗口是模型能够记住的输入范围,超出这个范围的内容,模型将无法直接关联。 支持32k上下文的模型展示了未来大语言模型的发展方向,也给业界带来了更多思考空间。如何在保证高效推理的同时处理海量上下文信息,仍然是未来模型优化的重要方向。一种可能的技术优化方法是分层记忆机制。 随着GPT模型和其他大语言模型的不断演进,支持更大上下文窗口的能力将继续扩展。 它不仅提高了模型处理长文本和复杂任务的能力,还展示了大语言模型在各个领域中的广泛应用潜力。从法律文本分析、代码生成到复杂对话和长篇写作,32k上下文为这些任务提供了强大的支持。
最近,老婆又又又刷到一条新闻(PS:也不知道为什么总是看新闻):“大模型靠上下文理解能力碾压传统 AI!”她一脸懵地问我:上下文不是写作文要首尾呼应吗?难道 AI 还要学语文课? 而具备上下文能力的大模型,就像贴心的助理,立刻明白“她”指代上文的罗琳。上下文的本质想象一下,上下文能力让 AI 拥有了“时间线管理术”。它不仅能记住你说过的话,还能像侦探一样串联线索。 但传统模型有三大死穴:失忆症晚期:传统模型处理完上句话立刻“格式化记忆”。比如你说“我海鲜过敏”,5 秒后问“推荐三亚美食”,它可能脱口而出“龙虾刺身”。逻辑断裂:无法理解跨句子的隐藏联系。 上下文的秘诀大模型实现上下文能力的核心,是靠两大法宝:1. 注意力织布机(Attention):自动给关键信息打高光。 上下文的局限但上下文能力并非无懈可击,仍有三大难关:记忆长度有限:就像人类只能记住最近 7 件事,以DeepSeek为例,推理模型和对话模型的最大上下文窗口均为64K tokens(约6万多个汉字),
一、引言:从对话助手到自主 Agent 的跨越 2026 年 2 月 5 日,Anthropic 宣布推出 Claude Opus 4.6 这不仅是 Opus 4.5 的常规迭代,更是大模型向 企业级自主 与前代相比,Opus 4.6 在三个维度实现突破: 上下文革命:首次为 Opus 级别模型提供 1M token 超长上下文(Beta) Agent 能力跃迁:复杂任务规划、并行子任务执行、长时间会话维持 编程能力登顶:Terminal-Bench 2.0 评测中成为全球最强编码模型 二、核心技术创新详解 2.1 1M Token 超长上下文:从“记忆碎片”到“全量知识库” Opus 4.6 首次在 Opus 七、总结与展望 7.1 Opus 4.6 的三大范式转移 维度 传统 LLM Opus 4.6 交互模式 问答式 自主规划 + 工具调用 上下文能力 短期记忆 全量知识库访问 任务复杂度 单步操作 多步骤工作流编排 未来展望 Opus 4.6 标志着大模型从 “超级助手” 向 “数字员工” 的演进。
至于 长上下文多模态场景 的大模型应用,虽然归为“浅水区”方向,但它的复杂度介于两者之间:比智能客服复杂,但又不如深水区需要极高的策略设计能力。 本文将以Qwen-long 为例,详细展示如何在 长上下文多模态场景 中发挥大模型的潜力。 需求场景为了深入展示 长上下文多模态大模型 在实际场景中的应用潜力,我们以 招标文档解读 作为示例,探索如何利用大模型高效解析长篇复杂文档并提取核心信息。 长上下文与多模态技术的基本原理长上下文(Long Context)技术旨在使模型能够处理和理解超长文本序列。传统的自然语言处理模型通常受限于固定的上下文窗口,无法有效捕捉长距离依赖关系。 长上下文技术通过优化模型架构和训练方法,扩展模型的上下文窗口,使其能够在处理如长篇文章、技术文档或代码库时,保持对全局信息的理解和连贯性。
从百万Token上下文成为标配,到原生多模态与电脑控制能力成熟,再到AI智能体(Agent)从概念走向规模化商用,大模型正式告别“参数内卷”,进入效率优先、场景为王、生态重构的实用主义时代。 OpenAI:GPT-5.4/5.1双发,定义下一代AI标准 GPT-5.4(3月5日正式发布):核心升级为百万Token上下文窗口(API版默认开启),新增「中途响应可控」(Mid-response GPT-4.5达5个百分点,刷新开源模型性能纪录。 上下文:百万Token成标配,超长文档处理常态化 无论是海外巨头还是国产厂商,3月发布的新版本均已支持百万Token上下文窗口,具体对比如下: 模型名称 上下文窗口 核心优势 GPT- 百万上下文、原生多模态、Agent能力成熟,标志AI正式从“炫技”走向“实用”,成为重构全球产业与生活方式的核心引擎。
大模型中的5种AI Agent模式在大模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在大模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于大模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用大模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.
背景 在过去几年里,逐渐膨胀的大模型上下文,使得LLM的性能受到巨大的挑战。另外,LLM的上下文窗口有限,也使得其丢失记忆的情况很常见。 丢失细节比较容易理解,而大模型的性能,会因为压缩的上下文所提供的背景信息,以及本身也在逐渐膨胀的消息列表,仍然会比较低。 因此,寻找一种更优的大模型上下文工程方案,是我本篇文章的目标。 保留聊天的细节,让大模型记忆不丢失,甚至得到增强。2. 大模型性能不受损。关注我的公众号 wwwtangshuangnet,一起探讨Agent架构优化。 在当前的所有方案中,它们需要输出非常长的聊天历史,来遵照大模型的API接口设计。但是,目前公开研究发现,丢掉所有聊天历史,在没有历史记忆的情况下,大模型所驱动的Agent会有更准确的效果表现。 但是,这并不绝对,因为通过精准的意图识别,可以减少上下文的长度,剔除无用的信息,这又可以提升大模型首个token响应时间。
引言 随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是大模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 大模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而大模型性能瓶颈常藏于框架底层。 推荐采用‘四层注入法’: 1)API层:模拟真实用户请求分布(如80%短提示+15%中长提示+5%对抗性长上下文),避免均匀负载失真; 2)Engine层:直连vLLM/Triton推理引擎,注入不同 结语 大模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。
for Large-scale Learning)是一个高效且用户友好的强化学习库,专为不同类型用户设计,它不仅能够在各种硬件资源条件下高效完成多样化的训练目标,还特别针对需要大规模 GPU 资源的大语言模型 ROLL在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了大语言模型的性能。 (4)质陪解决方案由中关村科金得助智能开发,创造性地融合成熟的AI大模型质检与陪练系统,推出了全面高效的“质陪解决方案”。智能质检采用大小模型结合的方式,对销售人员的销售行为进行全方位监测和分析。 (5)上下文工程上下文工程指通过为任务提供完整的背景信息,让大模型能够合理解决问题。在AI智能体的兴起发展过程中,上下文工程才是决定大多数AI智能体成败的关键而并非模型。 上下文工程致力于设计和构建动态系统而并非字符串,这些系统在恰当的时机提供信息和工具,从而让LLM拥有完成任务所需的一切。
宣布新一代 GPT 4.1 系列模型上线,此次新模型分为3个版本 —— GPT 4.1(主力旗舰)、GPT 4.1 mini(高效轻量)、GPT 4.1 nano(超小型极速),目前只能通过 API 访问 OpenAI 开发了一个用于评估模型指令遵循能力的内部评估系统,涵盖多个维度和几个关键类别,包括: 格式遵循:要求模型以特定格式(如 XML、YAML、Markdown 等)输出。 长上下文性能对于多模态应用场景同样重要,例如处理长视频。 超长上下文 除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档 许多开发者在处理长上下文时的应用场景时,需要在上下文中进行多次逻辑跳跃,比如代码时在多个文件之间跳转,或者在回答复杂的法律问题时进行文档间的交叉引用。
如何让自己使用的大模型能够像 Manus 一样,胜任各种复杂任务,应该采取哪些措施? 这就需要一种方法把各种工具和助手整合到一起。 01—什么是模型上下文协议 MCP(模型上下文协议)是一种大模型时代出现的开放协议,旨在标准化应用程序向大型语言模型 (LLMs) 提供上下文(数据)的方式。 例如,这是一个 PostgreSQL MCP Server 工具,可以让大模型能够基于 PostgreSQL 中的数据来回答问题。 如果使用API让大模型与外部工具对接,开发者需要为每个API编写独立的代码,包括文档解析、认证方式、错误处理和后期维护,费时又费力。 通过分离模型、上下文和协议,开发人员可以: 在不破坏整个系统的情况下更换不同的 AI 模型。 动态地引入新的上下文(例如,使 NLP 模型适应新的语言或行业)。 为 AI 模型编排定义强大的协议。
在 DeepSeek-V4 问世之前,大模型领域长期被两大“魔咒”所困扰:规模魔咒 (Scale Curse):模型参数越大,训练过程就越像在搭建一座违章建筑,稍有不慎就会“塌方”(训练不稳定)。 此外,参数效率与上下文长度之间也存在着不可调和的矛盾。传统稠密架构的大模型,在处理长文本时,面临着算力利用率低、显存开销巨大、关键信息易丢失等核心痛点。 DSA/NSA 稀疏注意力:让百万上下文成为可能处理百万Token的上下文,最大的挑战在于 注意力机制 的计算复杂度。 中小企业、个人开发者甚至高校实验室,都能以极低的门槛使用百万上下文的顶级模型,极大地加速了AI应用的创新和落地。重塑行业工作流:法律:律师可以一次性上传整本案卷,让AI进行深度分析和摘要。 它通过“记忆-计算分离”的双轴稀疏设计,巧妙地绕开了大模型发展的传统瓶颈,将超长上下文、顶级性能和极致性价比融为一体。百万字长文对话只是起点。
大模型的长上下文与 RAG 以下是本文的主要发现: 在问答基准测试中,LC 的表现通常优于 RAG 基于摘要的检索与 LC 性能相当,而基于块的检索则落后 RAG 在基于对话和一般性问题查询方面具有优势
什么是上下文工程? “上下文工程”是指为大语言模型设计和构建一整套动态的信息生态,让模型在推理时能够获取充分且相关的上下文,以更可靠地完成任务。 这些方法可以在不超出模型上下文窗口限制的情况下,让模型处理百万级别长度的内容 。举例来说,我们可以把一本书分章摘要,然后把摘要再摘要,逐级压缩成模型能消化的长度,同时尽量保留关键信息。 上下文工程关注如何统一处理多模态信息并让模型结合它们进行推理 。当前,多模态大模型(如 GPT-4V 等)的出现正是朝着让模型直接处理多模态上下文迈进了一步 。 大模型上下文方案往往计算和存储代价高昂,要在生产环境中部署,需要解决延迟、吞吐量和成本之间的权衡 。 总之,只有正视并解决好以上部署与社会影响层面的挑战,才能确保大模型上下文工程技术以安全、可靠、负责任的方式服务于社会。 总结 总的来说:上下文工程就是帮大模型“吃好、消化好”信息的艺术与科学。
今天,智谱大模型开放平台(bigmodel.cn)上线了新的价格体系。入门级产品 GLM-3 Turbo 模型调用价格下调80%!从5元/百万tokens降至1元/百万tokens。 GLM-3 Turbo(最大支持 128k)是大模型开放平台最受欢迎的模型产品,不仅速度快,而且适用于对知识量、推理能力、创造力要求较高的场景,此次调价后更具竞争力,国内其他128k级别大模型的调用价格大多从百万 企业级产品 GLM-4/GLM-4V 价格仍维持在 0.1元/千 tokens,百万tokens的价格为100元,但作为一款能力逼近GPT-4的国内领先大模型,这一价格还是比较能打。 例如,从基础设施来看,随着一些老款AI芯片(比如 Nvidia A100 )降价,大模型培训成本下降了约60%。英伟达也优化了软件性能,帮助开发者更快训练和运行大模型。 智谱曾表示,通过模型推理算子优化、模型压缩及硬件高效适配、高性能系统实现以及精细化集群调度等技术将 GLM-3 Turbo的推理成本压缩到1/5。