承接上一篇《数据库接入大模型实战》,除了上述优化方案,还有一种更直接的方法:使用超长上下文的模型,将资料直接拖入对话框,让AI自动检索。 模型窗口进化与测试 如上图所示,过去两年内,模型的上下文窗口长度大幅提升。例如Gemini 2.0 Pro已支持2000万token的上下文,足以容纳四大名著。下面以Gemini为例进行测试。 本文以Gemini 2.0 Flash模型为例,支持100万token上下文,并有免费额度。 复制Gemini 2.0 Flash 模型ID。 回到 Cherry Studio,填写模型ID并添加。 知识库检索实战 接下来测试知识库能力。以全本《三国演义》为例,用VSCode打开,将张飞打造的武器改为“丈九棒棒糖”,保存。 整个《三国演义》仅消耗了约一半上下文窗口。利用Gemini超大上下文进行知识库检索,是一种高效方案。 总结与展望 AI知识库常被称为“demo五分钟,上线一年”。
上期我们了解到Transformer是有能力学习到文本的长时依赖的,但是我们也不能不注意到,Transformer的复杂度是O(n^2)。 本文就提出了一种网络结构Transformer-XL,它不但可以捕捉文本更长时的依赖,同时可以解决文本被分成定长后产生的上下文碎片问题。 如此一来,两个片段之前的上下文信息可以进行有效的传递。 进一步地,作者提出,在理论上不仅仅可以储存并重用之前一个片段的结果,只要GPU允许,完全可以重用前几个片段的结果,使上下文联系更远。
距离上一篇VFP AI 插件:超长上下文的识别(一)有些时间了。经过不断的试错和优化,终于完成了 VFP AI 插件的超长上下的识别。将时间从数小时压缩至最多几十分钟。
VFP AI 插件在访问大模型时,有一个上下文长度的问题。 对于 DeepSeek 而言,其大小为 128K(=128000 token)。 VFP AI 插件 2025.12.15 版,初步实现超长上下文的处理: 所分析 VCX 类库,使用类浏览器转换出的 prg 格式文件,文件体积为 400+KB,共 10329 行,超过模型最大上下文的最大限制
通过这种设计,Infini-attention有效地增强了Transformer模型处理长期依赖关系的能力,同时保持对局部上下文的 敏感度。 通过这些不同的内存和上下文窗口管理策略,各模型试图在内存效率和长期依赖建模能力之间找到平衡。 该研究的目的是评估不同模型在处理具有长上下文依赖的文本序列时的表现,主要通过平均tokens级困惑度来衡量,该指标反映了模型预测文本序列的能力。困惑度越低,模型的预测能力越强。 在对比中,传统的Transformer-XL使用较大的缓存来扩展其上下文处理能力,但在PG19和Arxiv-math数据集上的困惑度相对较高,表明其在处理长文本序列上存在局限。 信息的损失可能会影响模型对上下文的理解能力,从而影响任务的最终性能。此外,压缩和解压过程的设计需要精细的平衡,以确保既不过度压缩以损失重要信息,也不过少压缩而浪费存储和计算资源。
由于上下文的长度是固定的,因此模型无法捕获任何超过预定义上下文长度的长期依赖性。此外,长度固定的片段都是在不考虑句子或其它语义边界的情况下通过选择连续的符号块来创建的。 因此,模型缺乏必要的上下文信息来很好地预测前几个符号,这就导致模型的优化效率和性能低下。我们将这个问题称为上下文碎片化。 为了解决上文提到的上下文固定长度的限制,本文提出了一种叫做 Transformer-XL(超长)的新架构。我们将循环概念引入了深度自注意力网络。 因此,对超长期依赖性建模成为了可能,因为信息可以通过循环连接来传播。同时,从之前的片段传递信息也可以解决上下文碎片化的问题。 我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。
自学习能力:Kimi内置了自学习机制,能够不断地通过训练和用户反馈优化其算法和模型,从而提升智能水平和响应的准确性。 2. 超长上下文处理:Kimi支持高达200万字的最长上下文输入,这是在大模型长上下文处理技术上的一个重要突破,使得它能够更好地理解和处理复杂、连贯的文本信息,比如用于论文总结、电影剧本分析、录音内容整理等。 强大的技术支持:Kimi的背后有中科曙光提供的强大算力支持,以及月之暗面自研的千亿参数大模型,这些技术基础保障了Kimi高效稳定运行和持续的技术创新能力。 Kimi实现超长上下文处理的技术原理 Kimi实现超长上下文处理的技术原理涉及到几个关键技术点,这些技术共同作用使其能够处理长达200万字的文本而不损失上下文信息,具体包括: 1. Kimi采用了更大规模的Transformer模型,并对模型结构进行了优化,以适应超长文本的处理需求。 2. 分块与重组技术:面对超长文本,直接将整个文本送入模型可能会超出硬件限制。
UloRL:一种提升大语言模型推理能力的超长输出强化学习方法摘要 近期大语言模型(LLMs)的发展表明,基于可验证奖励的强化学习(RLVR)能通过扩展输出序列增强推理能力。 然而传统RL框架在处理超长输出时面临长尾序列分布和训练过程中的熵崩溃问题。 为此,我们提出超长输出强化学习(UloRL)方法,具体包括:将超长输出解码划分为短片段,通过缓解长尾样本导致的延迟实现高效训练引入动态掩码技术处理已掌握的正向标记(MPTs)以防止熵崩溃实验证明该方法显著提升性能
成立不到三年,DeepSeek已发布包括DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL、DeepSeek-R1等多个重量级模型,在代码生成、混合专家架构、多模态理解与推理能力等方面实现多项突破 DeepSeek-R1:强化推理能力,支持复杂逻辑链、数学证明、代码调试。引入强化学习(RL)微调,显著提升任务完成率与鲁棒性。 2.超长上下文支持支持128Ktokens上下文窗口(部分版本达1M)。采用ALiBi(AttentionwithLinearBiases)或YaRN位置编码,有效缓解长度外推问题。 指令微调(SFT):基于人工标注与合成数据优化对齐能力。强化学习(RLHF/RLAIF):在R1版本中引入,提升复杂任务推理能力。
它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来? 此外,研究人员发现所得的 mesa 优化算法表现出上下文中的小样本学习能力,与模型规模无关。因此,新的结果对此前大语言模型中出现的小样本学习的原理进行了补充。 与 LLM 类似,实验表明简单的自回归训练模型也可以成为上下文学习者,而即时调整对于改善 LLM 的上下文学习至关重要,也可以提高特定环境中的表现。 在初步的语言建模实验后发现,用 mesa 层替换标准的自注意力层获得了有希望的结果,证明了该层具有强大的上下文学习能力。 该研究假设 LLM 也存在 mesa 优化,从而提高了其上下文学习能力。有趣的是,该研究还观察到,为 LLM 有效调整 prompt 也可以带来上下文学习能力的实质性改进。
新智元报道 编辑:LRS 【新智元导读】挖掘大模型固有的长文本理解能力,InfLLM在没有引入额外训练的情况下,利用一个外部记忆模块存储超长上下文信息,实现了上下文长度的扩展。 这些真实应用也给LLMs处理超长序列的能力提出了更高的要求,例如LLM驱动的智能体需要基于所有历史记忆持续处理从外部环境接收的信息,对话式AI需要更好地记忆与用户的对话内容从而产生个性化回答。 方法介绍 InfLLM示意图 为了高效地实现大模型的长度泛化能力,作者提出了一种无需训练的记忆增强方法,InfLLM,用于流式地处理超长序列。 InfLLM旨在激发LLMs的内在能力,以有限的计算成本捕获超长上下文中的长距离语义依赖关系,从而实现高效的长文本理解。 超长文本实验 此外,作者继续探索了 InfLLM 在更长文本上的泛化能力,在 1024K 长度的「海底捞针」任务中仍能保持 100% 的召回率。
机器之心报道 编辑:rome rome 作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 最近的一篇综述论文对此进行了全面的调研,作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 因此,论文全面回顾了致力于改进 LLM 长上下文能力的各个阶段的最新方法,并将它们组织成一个统一的分类法,如图 1 (b) 所示。 杂项 (论文第 7 节):探讨了各种一般且有价值的方法,这些方法不容易归入前面四类,为推进 LLM 的长上下文能力提供了更广泛的视角。 随着 LLM 在现实世界场景中的快速部署,越来越迫切地需要更可靠的度量来评估长上下文能力,特别是在生成性任务中,其中精确的真实性难以捉摸。
刚刚,Hugging Face推出了目前最强的30亿参数模型SmolLM3: · 双推理模式:think,no_think · 超长上下文:最长可达128k · 多语言支持:英语、法语、西班牙语、德语、 模型架构与预训练阶段 在Llama架构的基础上,SmolLM3引入多项关键改进,以提升效率和长上下文处理能力。 长上下文扩展 在主预训练完成后,额外训练了SmolLM3,进一步扩展模型的上下文处理能力。 此外,借鉴Qwen2.5,在推理阶段,这次采用YARN技术,将上下文窗口从训练时的64k外推至128k,上下文扩展了2倍。 推理中间训练阶段 为了进一步注入通用推理能力,还有一项训练:推理中间训练。 为此,团队追溯到推理中间训练阶段,发现模型长上下文处理能力有所损失。 此外,APO训练数据的上下文限制24k token。 为了解决这一问题并缓解性能下降,团队开始探索模型合并。
400 万超长上下文,MiniMax-Text-01 能够高效处理高达 400 万 token的上下文,是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。 本文接下来将从实测、数据集评估、技术解析三个方面展开,深入探讨 MiniMax 如何在低成本的前提下实现高效超长上下文处理。 1. 实测 400 万超长上下文窗口,测试的场景可就太有意思了。 LongBench v2由清华大学领头开发,面向现实情景的长上下文基准测评数据集,涵盖多任务类别,具有高难度和多样性,重点测试模型的推理能力和计算扩展性。 学术数据集评测 榜单对比都是当前业界榜上顶尖大模型,以超长上下文混合线性注意力架构的 MiniMax-Text-01 表现如何呢? 超长上下文的支持使得处理超大规模文本变得可能,也将能够催生一系列新兴的 Agentic 应用。
当 Qwen3-VL 能 “读懂整本教材、秒级定位两小时视频”:我们如何用 Gateone.ai 将超长上下文多模态理解转化为可规模化的智能产品引擎就在我们为多模态模型 “看得见却读不懂”“读得懂却记不住 ” 而反复重构数据架构时,通义千问团队开源了 Qwen3-VL—— 一个原生支持 256K token 上下文、可扩展至百万 token 的超长上下文视觉语言模型。 一、超长上下文多模态理解的 “能力奇点” 与落地断层我们第一时间将 Qwen3-VL 接入内部智能文档平台,试图打造 “一本教材即一个智能体” 的教育产品,却迅速遭遇三大工程瓶颈:1. -VL 仅提供原始推理接口,缺乏对输入结构的感知能力,导致我们不得不在模型外层构建复杂的预处理逻辑,延迟飙升 300%。 三、Gateone.ai:让超长上下文多模态理解从 “技术奇迹” 走向 “产品基础设施”当 Qwen3-VL 用百万 token 上下文重新定义多模态智能的边界时,Gateone 正在让这项能力真正嵌入千行百业的产品核心
200K超长上下文「完美」支持,20B版本综合性能全面领先。 就在今天,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学,正式发布新一代大语言模型书⽣·浦语2.0(InternLM2)。 它可以支持200K超长上下文,约30万字文本,在「大海捞针实验」中实现了完美的召回率。 相较于初代InternLM,新一代大模型轻量级(7B)及中量级(20B)性能在同量级模型中表现优异。 与第一代InternLM相比,InternLM2在大规模高质量的验证语料上的Loss分布整体左移,表明了其语言建模能力的实质性增强 支持200K超长上下文,「大海捞针」近乎完美 长语境输入及理解能力能够显著拓展大模型的应用场景 InternLM2「大海捞针」试验效果 上图展示了InternLM2在不同长度的上下文(横轴)及上下文中不同位置(纵轴)上召回关键信息的准确率(Recall)。 试验结果表明,InternLM2在上下文长度延展到200K时依旧保持了近乎完美的召回成功率,验证了InternLM2对于超长上下文坚实的支持能力。
基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。 如下图所示的框架,基于于人类自身解决问题的范式,作者将 LLM 在解决长上下文任务时所用的基础能力分解为:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中识别和获取关键信息的能力 每个任务针对测试一种上文提到的基础能力。 长篇故事问答: 该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。 段落检索:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是准确返回复杂搜索结果的能力。 表格查询:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是在长上下文中执行复杂查询的能力。
随后,讲者会介绍基于 GAN 的视频生成模型设计方法以及所能达到的能力。 视频 DiT 模型 -- Latte XTuner 长序列训练解决方案 及其在 Latte 中的应用 在生成式 AI 领域,长文档摘要和视频生成等任务都需要模型具有超长上下文的能力。 如何训练超长上下文的模型,既是生成式 AI 算法领域的研究热点,也是 AI Infra 领域的难点。 这些工作虽然解决了超长上下文的训练问题,但需要开发者具有一定的 AI Infra 的知识,对生成式 AI 的研究人员很不友好。 为了让研究人员能够更加便捷地训练超长上下文模型,促进生成式 AI 领域的发展,XTuner 开发了一套超长上文训练解决方案,研究人员在自己的项目中,只需加入几行代码,就可以训练超长上下文的模型,本次分享将围绕
这种方法可以从现有的指令微调模型出发,构建超长上下文的LLM,最高可将上下文长度推向400万token的极限! 随后,指令微调阶段优化模型的指令遵循能力和推理能力。 这两个阶段结合,让模型既能高效处理超长输入,又能在长短上下文任务中表现出色。 相比之下,如图2d到2f所示,研究者的超长(UltraLong)模型在所有输入长度和深度上都达到了100%的准确率,展现了强大的长上下文检索能力。 这些结果表明,研究者的方法不仅有效扩展了上下文窗口,还保持甚至提升了模型的通用任务能力。 这种结合了高效的持续预训练和指令微调,不仅提升了模型对长上下文的理解能力,还增强了其遵循指令的能力。
这是因为,实现模型对超长上下文的处理在训练算法和工程实现上都面临着艰巨的挑战。 如何让模型在适应长文本工作方式时,不降低其原有的基础能力? 由超长上下文窗口带来的更高的算力需求和极严重的显存压力,如何在传统的 3D 并行方案之外寻找到更多的并行空间? ,逐步激活长上下文的能力。 在强大的工程和算法能力加持下,他们最终让直接训练超长上下文模型成为可能。 模型有了,接下来还要优化推理成本,以保证大量用户都能高效、低成本地使用模型。 大模型「登月计划」第一步:欢迎来到 Long LLM 时代 能选出一个有前景的方向是一回事,能不能做成又是另外一回事,毕竟超长上下文窗口打造起来并非易事,需要非常强的算法和工程能力。