首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能

    什么是大语言模型的上下文窗口

    GPT模型的上下文窗口在自然语言处理任务中,语言模型有一个“上下文窗口”(contextwindow)的概念。上下文窗口是模型能够记住的输入范围,超出这个范围的内容,模型将无法直接关联。 传统的模型在处理这些代码时,往往因为上下文窗口的限制,难以理解代码之间的依赖关系。 而且,随着上下文窗口的扩大,模型能够生成更加连贯、符合逻辑的输出,避免了过去因为上下文丢失导致的错误。但是,也有一些挑战需要考虑。首先,随着上下文窗口的增加,模型的计算资源需求也显著上升。 此外,尽管上下文窗口增大了,但模型并不一定总能在非常长的文本中保持高效的记忆。 随着GPT模型和其他大语言模型的不断演进,支持更大上下文窗口的能力将继续扩展。

    25810编辑于 2026-03-07
  • LLM架构机制管窥:作为黑板的上下文窗口

    二、上下文窗口 as 黑板大型语言模型(LLM)在自然语言处理领域取得了巨大成功,其强大的文本生成、理解和推理能力令人瞩目。 将LLM的上下文与黑板架构模式相结合进行理解,有助于我们探索 LLM内部上下文管理 的改进方向。 它们在处理上下文信息时,具有各自的特定功能和运算规则。LLM的上下文是一组动态变化的数据,它贯穿于模型处理输入数据的整个过程。 三、上下文窗口黑板模式的优点3.1 问题求解的渐进性系统通过知识源不断地对黑板数据进行更新和完善,逐步逼近问题的解。LLM就是这种渐进式的求解方式。 四、“上下文”在LLM各层眼中的样子(逻辑含义)高层(深层FFN附近):上下文 = 语义逻辑与意图。Token已经高度抽象化,不再是具体的词,而是“概念”。

    48140编辑于 2025-12-30
  • 来自专栏AgenticAI

    Ollama 高阶配置,如何增加上下文窗口大小?

    Ollama默认的上下文窗口只有2K,多张显卡可能资源分配不均等问题,计算速度不够快。 增加上下文窗口 假设你从Ollama上拉取了大模型,其默认的窗口大小只有2048。我们可以通过如下方法,提高上下文窗口。 LICENSE AGREEMENT Tongyi Qianwen Release Date: August 3, 2023 .... """ 然后在PARAMETER处增加如下配置,32768就是上下文窗口大小 注意增加上下文窗口可能增加显存的使用,谨慎增加。 它会相应的增加上下文,比如一个请求2048 Tokens。如果是4个并行,那么就会消耗4*2048的上下文窗口

    4.2K10编辑于 2025-03-18
  • 百万 Token 上下文窗口的工程实现与实际瓶颈

    本文将探讨如何在工程上实现百万Token的上下文窗口,并分析其中的实际瓶颈。 对于百万Token的上下文窗口,我们需要考虑如何高效地存储和访问这些数据。常见的数据结构如列表、字典等在处理大规模数据时可能会遇到性能瓶颈。 内存优化和显存管理原理处理百万Token的上下文窗口时,内存和显存的管理非常重要。可以通过以下几种方式来优化内存和显存的使用:梯度累积:在训练过程中,通过累积多个批次的梯度来减少显存使用。 总结实现百万Token上下文窗口的工程挑战主要集中在高效的数据结构和算法、稀疏注意力机制、分块处理和并行计算以及内存优化和显存管理等方面。 总结本文深入探讨了百万 Token 上下文窗口的工程实现与实际瓶颈的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    19010编辑于 2025-12-24
  • LLM架构瓶颈管窥:Transformer架构的上下文窗口瓶颈

    尽管技术发展使得上下文长度从数K扩展到数百万token,但根本性瓶颈并未消失。一、 上下文窗口:不是容器,是“循环缓冲区”内容方面:上下文窗口不是一个只装“用户提问”的静态容器,而是一个循环缓冲区。 二、 上下文窗口的五重瓶颈标称窗口 ≠ 有效上下文 (Effective Context)我们看到的参数,不代表模型真正的能力厂商宣传的“128k 窗口”是理论最大值(Theoretical Max), 应用层有限增强窗口有限,通常只把RAG (检索增强)的部分片段塞进上下文。 1. 硬件瓶颈:KV Cache 与显存爆炸显存占用随上下文长度线性增长。 长上下文窗口的瓶颈突破并非单一技术维度所能解决,而是需要架构创新、训练策略、硬件优化和工程实现的协同演进。 有人认为,真正的目标并非“无限长上下文”,而是实现“按需适配的高效长上下文能力”,在扩展窗口的同时保障性能稳定与成本可控。 

    50040编辑于 2026-01-01
  • 来自专栏深度学习与python

    争夺“世界上最长的上下文窗口”背后:长上下文是否意味着 RAG 的终结?

    这本质是一个输入输出窗口的问题,在具备捕捉信息和上下文能力的基础上,大文本输入的信息越多,输出也会越好。另一方面,我个人认为长文本只是大模型能力的其中之一,我是非常反对文本越长越智能的观点。 InfoQ:我们是不是必须要 200 万甚至无限长的上下文? 张颖峰:长上下文很有意义,但无限长的上下文则是更偏向于是营销的宣传策略。上下文长度到达一定程度后,丢失的信息也会更多。 为了达到更好的长窗口无损压缩的性能,我们团队从模型的预训练到对齐再到推理环节,均进行了重新的设计和开发,并且没有走滑动窗口、降采样等常规技术捷径,而是攻克了很多底层的技术难点。 InfoQ:增加上下文窗口大小且不影响模型性能,会存在哪些挑战以及有什么应对方法? 然后预填充的延迟会随着你上下文长度的增长而平方级别的增长,然后解码延迟和上下文切换的开销也会随着你上下文长度的增加而线性的增加啊。

    88810编辑于 2024-07-24
  • 来自专栏AI分享

    动态NTK与Azure推理优化:低成本扩展LLM上下文窗口

    在自然语言处理领域的广泛应用,其上下文窗口(Context Window)的限制逐渐成为制约模型性能的关键因素。 传统LLM的上下文窗口通常在2k至32k tokens之间,难以满足长文本生成、复杂推理和知识整合等场景需求。 与此同时,云平台如通过硬件优化和算法协同设计,进一步降低了扩展上下文窗口的计算开销。本文将从技术原理、实现路径及工程实践角度,探讨动态NTK与推理优化的协同效应。 通过预定义滑动窗口(Sliding Window)和局部敏感哈希(LSH)两种稀疏模式,使FLOPs减少65%的情况下仍保持98.5%的原始准确率。 动态NTK通过动态调整位置编码频率,以低成本实现了LLM上下文窗口的高效扩展,而硬件优化与资源管理技术进一步放大了其工程价值。

    4.3K11编辑于 2025-04-15
  • 来自专栏AI大模型应用开发炼丹房

    智能体上下文窗口告急!8种策略破解AI记忆困局

    引言:为什么记忆管理是AI系统的生死线当前大模型应用的致命瓶颈在于​​上下文窗口限制​​。 当对话轮数超过GPT-4 Turbo的128K上限,或本地部署模型仅支持4K上下文时,系统面临两难抉择:遗忘早期关键信息导致逻辑断层(如用户说“按上次方案处理”)突破长度限制带来的指数级计算成本增长本文将深入解析 滑动窗口(Sliding Window)​​from collections import deque window = deque(maxlen=5) # 保留最近5轮对话✅ ​​优势​​:固定上下文长度 工程技巧​​:动态调整窗口大小(根据对话复杂度在3-10轮间浮动)二、进阶策略:平衡记忆与性能​​3. 提示) return tfidf_score(text) + 10 if "重要" in text else 0✅ ​​突破点​​:避免重要信息被滑动窗口误删 ​​行业方案​​:混合规则引擎+

    1.6K52编辑于 2025-07-31
  • 来自专栏量子位

    百万token上下文窗口也杀不死向量数据库?CPU笑了

    随着新晋大语言模型们的上下文窗口(Context Window)变得越发得长,业界人士针对“RAG终将消亡”观点的讨论也是愈演愈烈。 有网友便列举了长上下文窗口的四大通病(四个V): Velocity(速度):基于Transformer的大型模型,在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。 Value(价值):长上下文窗口毕竟属于大力出奇迹,但它高支出的特点对于日常应用来说,在成本上是不切实际的。 Volume(体量):即使上下文窗口越发得长,但和全网庞大的非结构化数据相比就是小巫见大巫;尤其是企业级动辄GB、TB这种体量,还涉及众多私有数据的情形。 从这些特性不难看出,它恰好补齐了我们刚才提到的上下文窗口方式的一些短板。

    43710编辑于 2024-03-20
  • 来自专栏机器之心

    上下文窗口1.6万token、30亿参数,Stability Al代码大模型来了

    官博地址:https://stability.ai/blog/stablecode-llm-generative-ai-coding 对于 StableCode,网友的期许很高,表示真的需要将整个代码库作为上下文的代码大模型 三大版本:基础、指令、长上下文窗口模型 StableCode 通过三个不同版本的模型来帮助开发者变得更加高效。 长上下文窗口模型「StableCode-Completion-Alpha-3B」可称得上完美的助手,确保用户使用单行和多行自动代码补全建议。 与以往发布的开源模型相比,该模型的上下文窗口达到了 16000 token(比任何其他模型都大),一次性可以处理的代码更多,是以往的 2-4 倍。

    34330编辑于 2023-09-08
  • 来自专栏自然语言处理

    为什么大上下文窗口还不够(至少目前如此)

    OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。 长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。 大上下文模型看起来像是灵丹妙药。 引用:信任很重要 目前的大上下文模型无法有效处理引用。与 RAG 能够轻松引用源文本块不同,大上下文方法失去了关键的透明度。 结论 虽然未来可能会带来支持仅使用上下文窗口模型的突破,但现在需要实用的解决方案。目前,RAG 仍然是有意义、可扩展的 AI 应用的唯一可行选择。RAG 不仅没有消亡 —— 它正在茁壮成长。

    36410编辑于 2025-04-17
  • 来自专栏DeepHub IMBA

    更大的上下文窗口为什么让RAG变得更重要而非更多余

    在不少实际系统中,更大的上下文窗口反而拖累了模型表现。 模型需要在数学意义上判定哪些内容重要:上下文规模一大,信噪比就塌了。 用一个小上下文的场景做对照:5K token 的窗口,200 token 的相关信息,信号占比 4%,模型可以轻松锁定事实。 RAG + 大上下文 解决方案不在二选一。现代 AI 系统把精确检索和大上下文窗口结合在一起,用前者保证信号质量,用后者容纳旧模型放不下的多文档推理。 标准的生产管道是这样的: 接收用户查询。 筛选上下文窗口 best_chunks = reranked_results[:7] # 4. 更大的上下文窗口解决的是容量,不是相关性。 语言模型是出色的推理引擎,但前提是输入经过严格过滤。把所有东西都倒进去,换来的只是不可预测的性能衰退。

    5510编辑于 2026-03-31
  • 来自专栏DeepHub IMBA

    超越上下文窗口:CodeAct与RLM,两种代码驱动的LLM扩展方案

    我们先看看上下文窗口里到底装了些什么。 Claude的内存结构拆解 拿 Claude 举例,它的上下文窗口大致是这么分配的:系统提示词占 1.4%系统工具(包括 MCP 工具)占 8.3%,Agent 上下文(技能、工具描述、对话历史)吃掉约 一个缓解思路是 Ralph Wiggum Loop,可以更合理地利用上下文窗口。 每个子调用只看自己那一小段上下文,返回中间结果,最后由根模型把这些结果聚合起来生成最终响应。这套机制绕过了上下文窗口的硬限制,让模型可以通过结构化分解和受控递归处理任意长度的输入。 不同上下文长度下的性能表现 RLM 的核心主张是能把推理能力扩展到标准 LLM 固定上下文窗口之外。实验数据很支持这个论断。

    16710编辑于 2026-02-27
  • 来自专栏新智元

    LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

    编辑:LRS 【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能! 大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k 个微调步骤即可,同时还能保持原始短上下文窗口的性能。 因此使用搜索到的RoPE对LLaMA2-7B的64k上下文窗口大小进行了微调。 即使在上下文窗口长度为 16 倍的情况下(这通常是在较短上下文长度下保持性能所面临的挑战),我们的 LongRoPE-2048k 模型在 256k 上下文长度内的性能仍优于最先进的基线模型。

    60910编辑于 2024-05-06
  • 来自专栏跟Qt君学编程

    根据窗口句柄置顶窗口

    ❝Windows系统窗口置顶方法。最近在项目中有使用到,分享给大家。 ❞ SetWindowPos函数改变一个「子窗口,弹出式窗口或顶层窗口的尺寸,位置和Z序」。 子窗口,弹出式窗口,及顶层窗口根据它们在屏幕上出现的顺序排序、顶层窗口设置的级别最高,并且被设置为Z序的第一个窗口。 SetWindowPos(hwnd/*窗口句柄*/, HWND_TOPMOST, 0, 0, 0, 0, SWP_NOMOVE | SWP_NOSIZE)

    3.2K30发布于 2020-06-17
  • 来自专栏【腾讯云开发者】

    万字详解让大模型写出好代码:上下文窗口的工程化实践

    图1.3 常见AI模型的上下文窗口大小 1.3 上下文窗口的核心作用 在开发者的实际工作场景中,上下文窗口承载着多维度的技术信息,其大小和管理策略将直接影响以下的内容: 代码准确性:是否能够正确理解现有代码的意图 让我们随着时间来回顾一下上下文窗口的大小发展。 图3.1 大模型上下文窗口大小的发展过程 可以看出,近几年AI大模型的上下文窗口有了大幅度的增长,甚至可以说是指数级的。 3.4 成本与性能的权衡 上面提到的许多与AI丢失内容、上下文被忽略的问题,都是因为大模型的上下文窗口有限产生的。上下文窗口目前来看肯定不是无限的,那么是不是我们选择有最大上下文窗口的模型就可以? 算法,增强了模型处理长上下文的能力,从而提高了模型的上下文窗口大小。 如果问题一直没解决,那么总会有一次超出上下文窗口的限制。那么这个时候模型可能会因为上下文窗口的限制,舍弃一部分内容。我们并不想让我们认为重要的内容被舍弃。

    1.5K21编辑于 2025-09-11
  • 来自专栏大数据文摘

    上下文窗口越长,模型越笨!

    大数据文摘出品 在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。 一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。 由于硬件和算法的最新进步,大模型的上下文窗口的长度也越来越“卷”。 其中的卷王当属Anthropic 公司,其五月份就将 Claude 的上下文窗口从 9k token扩展到了 100k。 有大模型“风向标”之称ChatGPT也在三月份将GPT-4模型最大上下文窗口达扩至32K;六月份将GPT-3.5-Turbo增加了16k的上下文长度(此前是4k)。 同时Nelson Liu也提到这篇论文并不是在说将整篇文档塞进大模型的上下文窗口,就一定表现不好。其实,结果取决于文档所包含的具体内容,大模型在区分“关系密切的内容”时,表现不佳。 在模型架构层面,论文比较了only解码器和编码-解码两类模型,结论是:相比于only解码器的语言模型,编码器-解码器结构的语言模型在上下文窗口方面较为稳健。

    95420编辑于 2023-08-08
  • 来自专栏AI SPPECH

    2025年大模型上下文窗口扩展技术全解析:突破记忆瓶颈的新方法

    目录 章节 内容 1 上下文窗口的重要性与挑战 2 传统上下文窗口技术的局限性 3 2025年热门上下文窗口扩展架构 4 高效注意力机制创新 5 内存优化与存储技术 6 训练方法与扩展策略 7 评估与基准测试 8 开源工具与实现方案 9 应用场景与实践案例 10 未来发展趋势 一、上下文窗口的重要性与挑战 1.1 上下文窗口的定义与作用 上下文窗口是指大语言模型在生成回复时能够考虑的输入文本长度。 三、2025年热门上下文窗口扩展架构 2025年,大模型上下文窗口扩展技术取得了突破性进展,出现了多种创新架构。 6.2 上下文窗口扩展策略 除了训练技术外,2025年还出现了多种上下文窗口扩展策略,帮助现有模型突破上下文窗口限制。 8.2.2 GPT-4 Long GPT-4 Long是OpenAI发布的具有超长上下文窗口的GPT-4变体,支持超长文本处理: 扩展上下文窗口:支持100K+的上下文窗口 保持原始性能:在扩展上下文窗口的同时

    1.1K10编辑于 2025-11-13
  • 来自专栏geekfly

    窗口

    窗口的边界上的点也属于该窗口窗口之间有层次的区别,在多于一个窗口重叠的区域里,只会显示位于顶层的窗口里的内容。    当你点击屏幕上一个点的时候,你就选择了处于被点击位置的最顶层窗口,并且这个窗口就会被移到所有窗口的最顶层,而剩余的窗口的层次顺序不变。如果你点击的位置不属于任何窗口,则系统会忽略你这次点击。    如果该次鼠标点击选择了一个窗口,则输出这个窗口的编号(窗口按照输入中的顺序从 1 编号到 N);如果没有,则输出”IGNORED”(不含双引号)。 第二次点击的位置只属于第 1 个窗口,因此该次点击选择了此窗口并将其置于顶层。现在的三个窗口的层次关系与初始状态恰好相反了。    第三次点击的位置同时属于三个窗口的范围,但是由于现在第 1 个窗口处于顶层,它被选择。   最后点击的 (0, 5) 不属于任何窗口

    1.1K20编辑于 2022-05-06
  • 来自专栏全栈程序员必看

    java获取窗口_获取窗口句柄

    1、使用FindWindow函数获取窗口句柄 示例:使用FindWindow函数获取窗口句柄,然后获得窗口大小和标题,并且移动窗口到指定位置。 #include #include #include #include int main(int argc, char* argv[]) { //根据窗口名获取QQ游戏登录窗口句柄 HWND ,h=rect.bottom-rect.top; cout< //移动QQ窗口位置 MoveWindow(hq,100,100,w,h,false); //得到桌面窗口 HWND hd=GetDesktopWindow } return true; } int main(int argc, _TCHAR* argv[]) { //获取屏幕上所有的顶层窗口,每发现一个窗口就调用回调函数一次 EnumWindows( hd=GetDesktopWindow(); //得到屏幕上第一个子窗口 hd=GetWindow(hd,GW_CHILD); char s[200]={0}; //循环得到所有的子窗口 while(

    6.3K30编辑于 2022-09-16
领券