首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DeepHub IMBA

    模型如何训练百万 Token 上下文上下文并行与 Ring Attention

    只用了几年时间,上下文窗口就从 4k 膨胀到 1000 万。 模型并行针对模型:单卡装不下,就把模型拆开,不同的层放不同的卡上,按顺序跑。405B 这种规模只能这样,并且下游的卡得等上游算完中间是有空转的。 张量并行更极端:连单个矩阵乘法都塞不进一张卡。 模型上下文又长到几百万 Token,张量并行也顶不住。因为注意力的二次方内存增长太凶,激活值直接占满显存。128k 上下文的激活值内存是 8k 的 16 倍,这个目前没办法,因为就是这么夸张。 Ring Attention 就是来解决这个问题的,让多节点多卡的模型训练和推理能在大规模数据中心里跑起来。 那么训练百万级 Token 上下文模型需要什么硬件? 多节点 GPU 集群,配 HBM 内存,加高速互连——NVIDIA NVLink 1.8TB/s 或者 InfiniBand。

    29810编辑于 2026-02-27
  • 来自专栏不二小段

    百万 Token 上下文并不可靠?Chroma 揭秘模型上下文腐烂」真相

    本文要点 • 超长上下文并非万能:尽管最新的模型如 GPT-4.1、Gemini 2.5 宣称支持百万甚至千万级 Token,但它们的性能会随着输入长度的增加而显著下降,这种现象被称为「上下文腐烂」( • 三核心挑战:实验证明,在长上下文中,模型的性能会受到语义模糊性、干扰信息和上下文结构的严重影响,即使是简单的任务也会失败。 紧接着,GPT-4.1 和 Llama 4 更是将这个数字推向了 100 万乃至 1000 万的新高度。 一个百万 Token 的上下文窗口意味着什么? 这份报告通过对包括 GPT-4.1、Claude 4、Gemini 2.5 和 Qwen3 在内的 18 个顶尖模型的严苛测试,得出了一个令人警醒的结论: 我们不能将模型视为可靠的计算系统。 它们处理上下文的方式并非始终如一,随着输入长度的增加,其表现会变得越来越不可靠。 换言之,你以为给了模型百万 Token 的上下文,它就能像超人一样处理所有信息。

    16010编辑于 2026-04-09
  • DeepSeek-V4-Pro 深度解析:一次面向百万上下文的开源模型迭代

    一、项目概览DeepSeek-V4是DeepSeek团队推出的新一代开源混合专家(MoE)语言模型系列。 该系列包含两款模型:DeepSeek-V4-Pro:总参数量1.6T,激活参数49BDeepSeek-V4-Flash:总参数量284B,激活参数13B两款模型都原生支持100万token的上下文长度, 二、三架构升级DeepSeek-V4在架构层面相比V3.2做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。 2.Manifold-ConstrainedHyper-Connections(mHC)为了让超深网络在百万上下文中依然保持稳定的信号传播,V4引入了流形约束超连接(mHC)。 它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是模型"训得起来+训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。

    1K20编辑于 2026-04-26
  • 来自专栏掘金安东尼

    国内模型 T1 —— Kimi,解析二百万上下文无压力

    两位百万?怎么做到的? 前段时间写过一篇文章:# GPT4-Turbor 128k ? 还不够?还不够! 记得 GPT4-T 的上下文参数量 128k,也就大概 100 万英文字符、50 万汉字字符,kimi 是如何做到 double 的? 真的能做到吗? 上下文的扩充有尽头吗? 白话来说就是将上下文提示语分块、分析、加权重、插入到提示,那么:如果能无限扩充上下文长度,RAG 技术还有意义吗? Kimi 背后原理,官网做出了解释:# Kimi Chat 公布“大海捞针”长文本压测结果 这里的“针”就是“上下文提示语”的核心,我们需要提取的、解析的核心: 有几个有意思的数据: 1、GPT-4 内部成员的回复: 思考: 以后的模型比拼什么?两点: 1、数据的精准性-各行业 2、计算能力、解析能力-这里的文本上下文解析就算!

    3.8K100编辑于 2024-03-23
  • 来自专栏天意云&天意科研云&天意生信云

    GPT 4.1 模型上线,支持百万token上下文,性能吊打 GPT 4o ,性价比超高!

    上下文:在评估多模态长上下文理解能力的 Video-MME 测试中,GPT 4.1 创下了新的最先进成绩——在长时长无字幕类别中得分 72.0%,比 GPT 4o 提高了 6.7 个百分点。 图像理解 GPT 4.1 系列的图像理解能力非常强大,尤其是 GPT 4.1 mini,在图像基准测试中经常击败 GPT 4o。 长上下文性能对于多模态应用场景同样重要,例如处理长视频。 超长上下文 除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档 此外,GPT 4.1 相较于 GPT 4o 在检索、记忆上下文信息方面更加精准。 价格 根据 OpenAI 发布的博客显示,GPT 4.1 的价格比 GPT 4o 便宜 26%,是 OpenAI 有史以来最便宜、最快的模型

    88610编辑于 2025-04-16
  • 来自专栏运维有术

    DeepSeek V4 发布:1.6T 参数、百万上下文,开源模型追平闭源

    两款模型均采用 MIT 协议完全开源,权重已上传 HuggingFace。2. CSA + HCA:百万上下文的秘密V4 最大的技术突破,是一套全新的混合注意力架构。 当上下文拉到百万 token 级别,这个计算量会直接炸掉。之前的做法要么截断上下文,要么加价卖算力。DeepSeek V4 的思路不同。 图 3:V4 vs V3.2 效率对比(百万 token 上下文)3. mHC 和 Muon:训练稳定性的两道保险CSA+HCA 解决了推理效率问题,但训练一个 1.6T 参数的模型本身也是个大工程。 技术报告指出,Muon 在模型训练中收敛更快、稳定性更好。来源:技术报告 Section 2.4 + Algorithm 1Adam 系列在模型训练里几乎是默认配置,换掉它需要相当的工程勇气。 总结DeepSeek V4 到底是不是王者归来?我的判断是:在它发力的维度上,确实是。百万上下文的效率突破是实打实的架构创新,不是参数堆叠。编程能力追平闭源是开源模型的历史性时刻。

    37640编辑于 2026-04-28
  • DeepSeek V4 技术架构深度解析:1.6万亿参数、百万上下文与三核心突破

    一、发布概况:双版本齐发,百万上下文成标配 DeepSeek V4系列一次性推出两款MoE(混合专家)模型,全部原生支持100万Token超长上下文模型 总参数量 激活参数 预训练数据 上下文长度 官方直言:从现在开始,一百万上下文将是DeepSeek所有官方服务的标配。 二、三架构突破 2.1 混合注意力机制:CSA + HCA 这是V4最核心的创新。 2.3 Muon优化器 V4在训练优化器上选择了Muon(而非主流的AdamW): 加速模型训练收敛速度 提升训练稳定性 配合GRPO(Group Relative Policy Optimization )进行RL强化学习 采用KL散度修正防止策略偏离 预训练阶段使用32K上下文,后续扩展至1M——这种"先短后长"的上下文扩展策略也是V4能高效达成百万上下文的关键工程选择之一。 这不仅是DeepSeek的一小步,更是整个开源AI社区向"高效长上下文"时代跨越的一步。 — 完 —

    35820编辑于 2026-04-28
  • 来自专栏DeepHub IMBA

    DeepSeek-V4 深度解读:百万上下文背后的工程细节

    百万上下文从演示用 demo,变成了可以日常跑的工作负载。 过去两年模型的进步基本沿着两条主线:一条是 reasoning 模型靠更长的思考链做 test-time scaling 刷指标;另一条是 agentic 工作流——动辄要处理跨多文档、多工具调用的长 本文围绕三个问题:长上下文效率到底怎么破(架构);万亿 MoE 怎么稳定训练(基础设施 + trick);十几个领域专家如何合并成一个模型(后训练)。 把这些组合在一起,论文给出的对比是:以 BF16 GQA8(head_dim=128)为基线,V4 的 KV Cache 能压到约 2%。这就是开篇那个百万上下文能用了的基础保证。 真正的影响在另一面:当百万上下文从贵的玩具变成日常能跑的工作负载,下一波 agentic 应用、长 horizon 任务、在线学习的探索就有了新的基础设施。这才是 V4 系列的分量所在。

    13510编辑于 2026-04-28
  • 来自专栏AI大模型

    DeepSeek-V4来了:百万上下文为什么是开源模型的分水岭

    一句话说清这次发布的核心变化DeepSeek-V4是DeepSeek推出的新一代语言模型系列,采用万亿参数MoE架构,首次将上下文窗口扩展至100万token,并按性能与成本分为V4-Pro(旗舰版) 三维度对标顶级闭源模型DeepSeek-V4-Pro是当前开源模型中综合性能最强的选择,在Agent编码、世界知识和推理三维度上均达到或接近顶级闭源模型的水平。 百万上下文如何实现? 结合V4引入的Engram记忆架构(据多方报道,这是V4的另一项架构创新),模型能在token维度进行高效压缩,将长上下文中的冗余信息浓缩为紧凑的表征,进一步降低实际计算开销。这对开发者意味着什么? 这一策略的背后逻辑是:2026年的模型竞争已从"裸模型性能"转向"生态适配能力"。一个模型即便Benchmark分数领先,如果在主流Agent框架中的实际使用体验不佳,开发者也不会买单。

    67810编辑于 2026-04-27
  • 来自专栏大模型系列

    万字长文解读 DeepSeek-V4百万上下文、万亿参数、开源免费,国产模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

    4月24日,DeepSeek-V4 预览版正式发布并同步开源,其核心亮点——百万Token(1M)超长上下文作为所有官方服务的标配,瞬间引爆了全球AI社区。 在 DeepSeek-V4 问世之前,模型领域长期被两“魔咒”所困扰:规模魔咒 (Scale Curse):模型参数越大,训练过程就越像在搭建一座违章建筑,稍有不慎就会“塌方”(训练不稳定)。 此外,参数效率与上下文长度之间也存在着不可调和的矛盾。传统稠密架构的模型,在处理长文本时,面临着算力利用率低、显存开销巨大、关键信息易丢失等核心痛点。 DSA/NSA 稀疏注意力:让百万上下文成为可能处理百万Token的上下文,最大的挑战在于 注意力机制 的计算复杂度。 它通过“记忆-计算分离”的双轴稀疏设计,巧妙地绕开了模型发展的传统瓶颈,将超长上下文、顶级性能和极致性价比融为一体。百万字长文对话只是起点。

    1.9K100编辑于 2026-04-24
  • 来自专栏大模型系列

    打造你的百万上下文AI智能体:OpenClaw深度集成DeepSeek V4全攻略—— 解锁 DeepSeek-V4百万上下文与 MoE 架构

    然而,智能体的大脑——即其背后的语言模型(LLM)——才是决定其能力上限的核心。一个强大的大脑能让智能体事半功倍,而一个孱弱的大脑则会让所有自动化构想沦为泡影。 在众多可选模型中,DeepSeekV4以其万亿参数的MoE架构、百万token的超长上下文、卓越的代码与推理能力以及极具竞争力的开源与定价策略,成为了2026年最具吸引力的选择之一。 DeepSeekV4是什么?根据官方于2026年4月24日发布的公告,DeepSeekV4是深度求索(DeepSeek)推出的全新一代语言模型。 5.2利用超长上下文DeepSeekV4百万token上下文是其杀手锏。在OpenClaw中,您可以通过Skills(技能)系统来充分利用这一点。 结语通过本文的详细指导,您现在已经成功地将业界领先的DeepSeekV4模型集成到了强大的OpenClawAI智能体框架中。这不仅为您打开了通往高效自动化的大门,也让您站在了开源AI技术的最前沿。

    2.2K50编辑于 2026-04-24
  • 来自专栏Python进阶之路

    探究语言模型如何使用长上下文

    特别是,当相关信息出现在输入上下文的开头或结尾时,性能往往最高,而当模型必须在长上下文中间获取相关信息时,性能会明显下降,即使是明确的长上下文模型也是如此。 这项研究的分析使人们更好地了解语言模型如何使用输入上下文,并为未来的长上下文语言模型提供了新的评估协议。 实验结果显示,模型在处理相关信息位于输入上下文的开头或结尾时表现最好,而当相关信息位于输入上下文的中间时,模型的表现显著下降。 因此,本研究提供了对语言模型如何使用输入上下文的更深入的理解,并为未来的长上下文语言模型提供了新的评估方法。 这篇论文的研究结果和分析提供了一个更好的理解语言模型如何使用其输入上下文,并为未来的长上下文模型提供了新的评估协议。

    44300编辑于 2024-05-25
  • 来自专栏人工智能

    什么是语言模型上下文窗口

    语言模型的使用中,“支持32k上下文”的意思是该模型可以处理并记住最多32,000个标记(tokens)的输入。这些标记通常是文本的最小组成部分,可以是一个字符、一个单词,或一个词组的部分。 GPT模型上下文窗口在自然语言处理任务中,语言模型有一个“上下文窗口”(contextwindow)的概念。上下文窗口是模型能够记住的输入范围,超出这个范围的内容,模型将无法直接关联。 支持32k上下文模型展示了未来语言模型的发展方向,也给业界带来了更多思考空间。如何在保证高效推理的同时处理海量上下文信息,仍然是未来模型优化的重要方向。一种可能的技术优化方法是分层记忆机制。 随着GPT模型和其他语言模型的不断演进,支持更大上下文窗口的能力将继续扩展。 它不仅提高了模型处理长文本和复杂任务的能力,还展示了语言模型在各个领域中的广泛应用潜力。从法律文本分析、代码生成到复杂对话和长篇写作,32k上下文为这些任务提供了强大的支持。

    31310编辑于 2026-03-07
  • 来自专栏新智元

    首个开源世界模型百万上下文,长视频理解吊打GPT-4,UC伯克利华人一作

    新智元报道 编辑:alan 【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别 首个开源「世界模型」来了 观看长视频(超过一小时),并回答问题: 即使最先进的商业模型GPT-4V和Gemini Pro也都失败了。 虽说「世界模型」还是个概念股吧,但LWM展现出的多模态能力是相当优秀的。 LWM在博客开头就展示了自己的优势区间,除了上面提到的长视频理解,下图比较了几个模型的事实检索能力: LWM在1M上下文窗口内实现了高精度,性能优于GPT-4V和Gemini Pro。 LWM和LWM-Chat 的架构修改 LWM是数百万长标记序列上的自回归变换器。视频中的每一帧都用VQGAN产生256个token。 对于视频理解数据,如果视频太长,会统一采样最大帧数,以适应模型的训练上下文长度。在训练期间,4 个下游任务等比例平均分配。

    64910编辑于 2024-04-12
  • 来自专栏大模型快速上手实践

    模型开发落地实战-长上下文多模态场景模型运用实战

    至于 长上下文多模态场景 的模型应用,虽然归为“浅水区”方向,但它的复杂度介于两者之间:比智能客服复杂,但又不如深水区需要极高的策略设计能力。 本文将以Qwen-long 为例,详细展示如何在 长上下文多模态场景 中发挥模型的潜力。 需求场景为了深入展示 长上下文多模态模型 在实际场景中的应用潜力,我们以 招标文档解读 作为示例,探索如何利用模型高效解析长篇复杂文档并提取核心信息。 长上下文与多模态技术的基本原理长上下文(Long Context)技术旨在使模型能够处理和理解超长文本序列。传统的自然语言处理模型通常受限于固定的上下文窗口,无法有效捕捉长距离依赖关系。 长上下文技术通过优化模型架构和训练方法,扩展模型上下文窗口,使其能够在处理如长篇文章、技术文档或代码库时,保持对全局信息的理解和连贯性。

    2.4K42编辑于 2025-01-07
  • 来自专栏从0开始学Go

    老婆问我:“什么是模型的“上下文”?”

    最近,老婆又又又刷到一条新闻(PS:也不知道为什么总是看新闻):“模型上下文理解能力碾压传统 AI!”她一脸懵地问我:上下文不是写作文要首尾呼应吗?难道 AI 还要学语文课? 而具备上下文能力的模型,就像贴心的助理,立刻明白“她”指代上文的罗琳。上下文的本质想象一下,上下文能力让 AI 拥有了“时间线管理术”。它不仅能记住你说过的话,还能像侦探一样串联线索。 但传统模型有三死穴:失忆症晚期:传统模型处理完上句话立刻“格式化记忆”。比如你说“我海鲜过敏”,5 秒后问“推荐三亚美食”,它可能脱口而出“龙虾刺身”。逻辑断裂:无法理解跨句子的隐藏联系。 上下文的秘诀模型实现上下文能力的核心,是靠两大法宝:1. 注意力织布机(Attention):自动给关键信息打高光。 上下文的局限但上下文能力并非无懈可击,仍有三难关:记忆长度有限:就像人类只能记住最近 7 件事,以​DeepSeek为例,推理模型和对话模型的最大上下文窗口均为64K tokens(约6万多个汉字),

    60520编辑于 2025-03-21
  • 2026年3月全球模型全景:国产登顶、百万上下文、智能体爆发,AI进入实用新纪元

    百万Token上下文成为标配,到原生多模态与电脑控制能力成熟,再到AI智能体(Agent)从概念走向规模化商用,模型正式告别“参数内卷”,进入效率优先、场景为王、生态重构的实用主义时代。 Anthropic Claude 4.6:百万上下文免费开放,多模态能力跃升 Anthropic于3月25日更新Claude 4.6,最大亮点是取消100万Token上下文的长文本溢价,用户可免费使用超长文本处理功能 上下文百万Token成标配,超长文档处理常态化 无论是海外巨头还是国产厂商,3月发布的新版本均已支持百万Token上下文窗口,具体对比如下: 模型名称 上下文窗口 核心优势 GPT- 4. 效率革命:小模型开源,成本大幅下探 3月,模型行业迎来“效率革命”,阿里、Meta等厂商纷纷推出高性能小模型,实现“百亿级性能、十亿级成本”,让中小企业与个人开发者也能轻松接入AI能力。 百万上下文、原生多模态、Agent能力成熟,标志AI正式从“炫技”走向“实用”,成为重构全球产业与生活方式的核心引擎。

    1.5K10编辑于 2026-04-22
  • 来自专栏后台技术汇

    模型应用之(4):Langchain架构与模型接入

    Langchain架构 LangChain工具 组件:模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六模块 模块 核心作用 • 原子操作组合• 条件分支控制• 循环执行 记忆 维护上下文状态 • 短期会话记忆• 长期知识存储• 实体记忆管理 Agent 动态决策与工具调度 • 工具自动选择• 多步推理• 自我修正 回调处理器 Agent作为高级模块,可调用其他所有模块功能 模型接入 接入示例 云服务和私有化模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商模型 较低,开箱即用 算力资源充足,模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化模型 较高,自建模型网关、服务鉴权、可用性等 算力硬件投入成本高,模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建模型的方式 总结 LangChain 是什么?

    74510编辑于 2025-08-04
  • 来自专栏设计模式

    AI 智能体上下文工程 4 实用策略解析

    上下文工程的核心概念 大型语言模型(LLMs)就像一种新型操作系统。LLM好比中央处理器(CPU),其上下文窗口则类似随机存取存储器(RAM),充当着模型的工作内存。 ):上下文内容过多超出模型训练适应范围 - 上下文混淆(Context Confusion):冗余上下文影响响应结果 - 上下文冲突(Context Clash):上下文各部分信息相互矛盾 工具调用产生的上下文会在智能体的多轮交互中不断累积 这通常是因为工具描述存在重叠,导致模型难以确定使用哪种工具。一种解决方法是将检索增强生成(RAG)应用于工具描述,仅获取与当前任务最相关的工具。近期一些论文表明,这种方法可将工具选择准确率提高3倍。 Cognition公司为此使用了微调模型,这凸显了这一步骤所需的工作量。 德鲁还提到了Provence,这是一种用于问答任务的训练型上下文修剪器。 4. 隔离上下文(Isolate Context) 隔离上下文指拆分上下文,以帮助智能体执行任务。

    89511编辑于 2025-10-20
  • 来自专栏云服务业务

    腾讯云代理商: TokenHub 上线 DeepSeek V4 百万上下文普惠企业

    2026 年 4 月 24 日,国内大型语言模型领域迎来一次标志性进展 ——DeepSeek 正式推出 V4 预览版本,全线产品均具备 100 万 Token 的超长上下文处理能力,能够一次性解析 70 TokenHub 接入 企业级服务保障作为腾讯云一体化模型服务平台,TokenHub 此次率先支持 DeepSeek V4,不仅实现功能同步,更通过全流程优化,解决企业用户 “接入困难、成本高昂、落地缓慢 ” 三实际问题。 全行业应用场景:挖掘长文档潜在价值依托 TokenHub 的便捷接入方式与 DeepSeek V4百万 Token 上下文能力,不同行业可迅速解锁人工智能新价值:· 金融投资研究:一次性加载完整年度报告 总结:DeepSeek V4百万 Token 上下文能力,是人工智能从 “短文本交互” 迈向 “全数据理解” 的关键进展;而腾讯云 TokenHub 的首发支持、平价普及、全生态适配,则让这项先进技术不再是大型企业的专属资源

    5720编辑于 2026-04-29
领券