首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏前端必修课

    超长上下文模型知识库实战

    承接上一篇《数据库接入大模型实战》,除了上述优化方案,还有一种更直接的方法:使用超长上下文的模型,将资料直接拖入对话框,让AI自动检索。 模型窗口进化与测试 如上图所示,过去两年内,模型的上下文窗口长度大幅提升。例如Gemini 2.0 Pro已支持2000万token的上下文,足以容纳四大名著。下面以Gemini为例进行测试。 本文以Gemini 2.0 Flash模型为例,支持100万token上下文,并有免费额度。 复制Gemini 2.0 Flash 模型ID。 回到 Cherry Studio,填写模型ID并添加。 知识库检索实战 接下来测试知识库能力。以全本《三国演义》为例,用VSCode打开,将张飞打造的武器改为“丈九棒棒糖”,保存。 整个《三国演义》仅消耗了约一半上下文窗口。利用Gemini超大上下文进行知识库检索,是一种高效方案。 总结与展望 AI知识库常被称为“demo五分钟,上线一年”。

    67320编辑于 2025-05-05
  • 来自专栏朴素人工智能

    Transformer-XL 超长上下文注意力模型

    快速传送门 1-4:[萌芽时代]、[风起云涌]、[文本分类通用技巧] 、 [GPT家族] 5-8:[BERT来临]、[浅析BERT代码]、[ERNIE合集]、[MT-DNN(KD)] 9-12:[Transformer 上期我们了解到Transformer是有能力学习到文本的长时依赖的,但是我们也不能不注意到,Transformer的复杂度是O(n^2)。 本文就提出了一种网络结构Transformer-XL,它不但可以捕捉文本更长时的依赖,同时可以解决文本被分成定长后产生的上下文碎片问题。 如此一来,两个片段之前的上下文信息可以进行有效的传递。 进一步地,作者提出,在理论上不仅仅可以储存并重用之前一个片段的结果,只要GPU允许,完全可以重用前几个片段的结果,使上下文联系更远。

    1.2K20发布于 2020-05-07
  • VFP AI 插件:超长上下文的识别(二)

    距离上一篇VFP AI 插件:超长上下文的识别(一)有些时间了。经过不断的试错和优化,终于完成了 VFP AI 插件的超长上下的识别。将时间从数小时压缩至最多几十分钟。

    10310编辑于 2026-03-10
  • VFP AI 插件:超长上下文的识别(一)

    VFP AI 插件在访问大模型时,有一个上下文长度的问题。 对于 DeepSeek 而言,其大小为 128K(=128000 token)。 VFP AI 插件 2025.12.15 版,初步实现超长上下文的处理: 所分析 VCX 类库,使用类浏览器转换出的 prg 格式文件,文件体积为 400+KB,共 10329 行,超过模型最大上下文的最大限制

    12810编辑于 2026-03-10
  • 来自专栏GiantPandaCV

    如何用Infini-attention实现超长上下文Transformer

    通过这种设计,Infini-attention有效地增强了Transformer模型处理长期依赖关系的能力,同时保持对局部上下文的 敏感度。 通过这些不同的内存和上下文窗口管理策略,各模型试图在内存效率和长期依赖建模能力之间找到平衡。 4. 实验 在最近的实验中,不同的Transformer模型针对长文本建模任务的性能进行了比较,结果显示Infini-Transformer在效率和有效性方面均表现出显著的优势。 该研究的目的是评估不同模型在处理具有长上下文依赖的文本序列时的表现,主要通过平均tokens级困惑度来衡量,该指标反映了模型预测文本序列的能力。困惑度越低,模型的预测能力越强。 在对比中,传统的Transformer-XL使用较大的缓存来扩展其上下文处理能力,但在PG19和Arxiv-math数据集上的困惑度相对较高,表明其在处理长文本序列上存在局限。

    1.3K10编辑于 2024-04-26
  • 来自专栏机器之心

    CMU、谷歌提出Transformer-XL:学习超长上下文关系

    为了解决上文提到的上下文固定长度的限制,本文提出了一种叫做 Transformer-XL(超长)的新架构。我们将循环概念引入了深度自注意力网络。 因此,对超长期依赖性建模成为了可能,因为信息可以通过循环连接来传播。同时,从之前的片段传递信息也可以解决上下文碎片化的问题。 图 1:片段长度为 4 的标准模型图示。 为了解决使用固定长度上下文的局限性,我们在 Transformer 架构中引入了循环机制。 图 2:片段长度为 4 的 Transformer-XL 图示。 尽管在上一小节中提出的想法极具吸引力,但为了重复使用隐藏状态,我们还有一个尚未解决的重要技术问题。 4 实验 ? 表 1:与在 WikiText-103 上得到的当前最佳结果进行对比。 ? 表 2:与在 enwiki8 上得到的当前最佳结果进行对比。 ?

    1K20发布于 2019-04-30
  • 来自专栏IT技术订阅

    月之暗面Kimi及超长上下文处理技术

    自学习能力:Kimi内置了自学习机制,能够不断地通过训练和用户反馈优化其算法和模型,从而提升智能水平和响应的准确性。 2. 4. 超长上下文处理:Kimi支持高达200万字的最长上下文输入,这是在大模型长上下文处理技术上的一个重要突破,使得它能够更好地理解和处理复杂、连贯的文本信息,比如用于论文总结、电影剧本分析、录音内容整理等。 Kimi实现超长上下文处理的技术原理 Kimi实现超长上下文处理的技术原理涉及到几个关键技术点,这些技术共同作用使其能够处理长达200万字的文本而不损失上下文信息,具体包括: 1. 稀疏注意力机制:为了减少计算复杂度,Kimi实施了稀疏注意力机制,只关注文本中最相关的部分,而不是全局自注意力,这样即使在处理超长文本时也能保持高效。 4.

    4.3K10编辑于 2024-05-10
  • 超长输出强化学习提升大语言模型推理能力

    UloRL:一种提升大语言模型推理能力超长输出强化学习方法摘要 近期大语言模型(LLMs)的发展表明,基于可验证奖励的强化学习(RLVR)能通过扩展输出序列增强推理能力。 然而传统RL框架在处理超长输出时面临长尾序列分布和训练过程中的熵崩溃问题。 为此,我们提出超长输出强化学习(UloRL)方法,具体包括:将超长输出解码划分为短片段,通过缓解长尾样本导致的延迟实现高效训练引入动态掩码技术处理已掌握的正向标记(MPTs)以防止熵崩溃实验证明该方法显著提升性能

    28510编辑于 2025-08-05
  • 来自专栏大模型系列

    万字长文详解DeepSeek:DeepSeek是什么-超长上下文

    DeepSeek-R1:强化推理能力,支持复杂逻辑链、数学证明、代码调试。引入强化学习(RL)微调,显著提升任务完成率与鲁棒性。 2.超长上下文支持支持128Ktokens上下文窗口(部分版本达1M)。采用ALiBi(AttentionwithLinearBiases)或YaRN位置编码,有效缓解长度外推问题。 指令微调(SFT):基于人工标注与合成数据优化对齐能力。强化学习(RLHF/RLAIF):在R1版本中引入,提升复杂任务推理能力4.多模态融合(DeepSeek-VL)采用Q-Former+VisionEncoder架构。支持图像描述、表格理解、手写识别等任务。可与语言模型无缝协同,实现“看图写代码”“读表做分析”等高级功能。 支持4-bit/8-bit量化,可在消费级GPU(如RTX4090)运行。社区贡献活跃,衍生出大量微调版本(如DeepSeek-Math、DeepSeek-Law)。

    3.2K60编辑于 2026-04-06
  • 来自专栏大模型系列

    0.2元百万Token 的万亿AI:DeepSeek-V4 开源,开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

    V4系列将1M(百万Token)超长上下文能力直接设为官方服务标配,并以前所未有的“价格屠夫”姿态宣布其推理定价:V4-Flash版本在缓存命中时,输入成本低至0.2元/百万Token。 1.3V4的核心价值主张DeepSeek-V4的价值主张清晰而有力:超长上下文普惠化:1MToken不再是实验室里的炫技,而是每个开发者和企业都能用得起的标准配置。 长上下文稳定性:在1MToken的上下文中,任何位置的关键信息都能被无损、高效地检索到。Multi-QueryNIAH(大海捞针)指标从84.2%跃升至97.0%,证明了其卓越的长距离信息捕捉能力。 2.3.3革命性成果百万上下文平民化:V4原生支持1MToken上下文,并将其作为所有官方服务的标配。 普惠AI:让中小型企业、独立开发者甚至个人用户,都能享受到顶尖的AI能力,极大地促进了AI技术的普及和应用。第四章:应用场景——百万上下文能做什么?

    37340编辑于 2026-04-24
  • 来自专栏机器之心

    Transformer的上下文学习能力是哪来的?

    它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来? 此外,研究人员发现所得的 mesa 优化算法表现出上下文中的小样本学习能力,与模型规模无关。因此,新的结果对此前大语言模型中出现的小样本学习的原理进行了补充。 在初步的语言建模实验后发现,用 mesa 层替换标准的自注意力层获得了有希望的结果,证明了该层具有强大的上下文学习能力。 作者根据 4 通道结构设置输入格式, ,这对应于选择 W_0 = 0。 与单层模型一样,作者在训练模型的权重中看到了清晰的结构。 该研究假设 LLM 也存在 mesa 优化,从而提高了其上下文学习能力。有趣的是,该研究还观察到,为 LLM 有效调整 prompt 也可以带来上下文学习能力的实质性改进。

    55340编辑于 2023-09-19
  • 来自专栏新智元

    清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!

    新智元报道 编辑:LRS 【新智元导读】挖掘大模型固有的长文本理解能力,InfLLM在没有引入额外训练的情况下,利用一个外部记忆模块存储超长上下文信息,实现了上下文长度的扩展。 方法介绍 InfLLM示意图 为了高效地实现大模型的长度泛化能力,作者提出了一种无需训练的记忆增强方法,InfLLM,用于流式地处理超长序列。 InfLLM旨在激发LLMs的内在能力,以有限的计算成本捕获超长上下文中的长距离语义依赖关系,从而实现高效的长文本理解。 从而避免上下文中的噪音干扰,并降低记忆查询复杂度 实验分析 作者在 Mistral-7b-Inst-v0.2(32K) 和 Vicuna-7b-v1.5(4K)模型上应用 InfLLM,分别使用4K和2K 超长文本实验 此外,作者继续探索了 InfLLM 在更长文本上的泛化能力,在 1024K 长度的「海底捞针」任务中仍能保持 100% 的召回率。

    2.1K10编辑于 2024-03-13
  • 来自专栏斑斓

    DDD 实战 (4):战略设计之系统上下文和限界上下文

    、亲密度等因素),实现对业务能力的“纵向切分”。 02 系统上下文定义 本系统的主要用户是 4 类:消费者客户、商家创建人、商家授权操作人、平台运营人员。 在按照以上 4 个步骤分析的过程中,我们需要注意的是:我们要始终考虑限界上下文的主要 4 个设计特征:最小完备、自我履行、稳定空间、独立进化。 同时,我们在这一步,再回顾限界上下文设计的 4 个特征:最小完备、自我履行、稳定空间、独立进化。 在真实的大型项目中,还要考虑项目团队的能力和边界问题——“康威定律”,你不应该让一个“限界上下文”被拆分到多个开发团队去负责、而只能让一个团队负责多个“限界上下文”。

    1.8K20编辑于 2023-03-23
  • 来自专栏新智元

    百万token上下文能力碾压GPT-4

    1,000,000 token上下文能干啥? 众所周知,模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。 如今,谷歌成功把这个领域「卷」到了100万token(极限为1000万token),创下了最长上下文窗口的纪录。 在这个基础之上,很多之前难以想象的应用都成为了现实。 完成这个任务耗时4分钟。 他又输入了梅西在对阵赫塔菲比赛中的经典单刀进球视频。 Prompt:「这个进球为什么如此著名?」 于是他让GPT-4也来跑了一下这个问题,结果GPT-4也没给出正确的结果。 他又把《炼金术士》这本书的PDF全文输入到了Gemini 1.5中,目的是获取书中主人公的形象描述。 在这个测试中,Gemini 1.5 Pro在较短的文本长度上的性能超过了GPT-4-Turbo,并且在整个100万token的范围内保持了相对稳定的表现 与之对比鲜明的是,GPT-4 Turbo的性能则飞速下降

    31210编辑于 2024-02-26
  • 来自专栏PHP在线

    编程能力4 种境界

    人们把一个人能够到达的能力描述成四个阶段。 这篇文章里,我将试图把这种分类应用的我们每天都会应用的技能上,它就是编程。 阶段一:无意识,无能力 约 翰是一个年轻的网站开发者。 而且更悲哀的是,他在论坛里的能力值比你我加起来都高。 约翰是无意识的无能力。 阶段二:有意识的无能力 马 克是个数学老师。 马克是有意识的无能力 阶段三:有意识的有能力 自 从阿德拿起他的第一本HTML书至今已经有两年了。 很显然这是一条不归路,对于阿德来说,每天思考的问题都是如何去提高自己喜爱的这个专业。 阿德是有意识的有能力。 阶段四:无意识的有能力 这是编程水平的终极阶段。 它不仅仅是知识积累的结果,更是一系列的逻辑规则在数年里慢慢的刻印到一个人的脑海里的结果。 值得一提的是,一些作者提出第五中阶段:成熟的有能力,定义为有能力去教育和传承他所学的、甚至是还未意识到的知识。

    75960发布于 2018-03-08
  • 来自专栏机器之心

    面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

    机器之心报道 编辑:rome rome 作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 最后提出了一个全面的方法论分类法 (第 2.3 节),旨在通过架构创新增强 LLM 的长上下文能力 (见图 1 (b))。这个分类法作为文章的第 3、4、5、6、7 节的指南。 因此,论文全面回顾了致力于改进 LLM 长上下文能力的各个阶段的最新方法,并将它们组织成一个统一的分类法,如图 1 (b) 所示。 长期记忆 (论文第 4 节):为了解决上下文工作记忆的局限性,一些方法旨在设计明确的记忆机制,弥补 LLM 中缺乏高效和有效的长期记忆的不足。 杂项 (论文第 7 节):探讨了各种一般且有价值的方法,这些方法不容易归入前面四类,为推进 LLM 的长上下文能力提供了更广泛的视角。

    1.5K10编辑于 2024-01-04
  • 来自专栏开源心路

    GLM-4 能力接近ChatGPT4和Claude 2.1

    逻辑推理 GLM-4 ChatGPT Claude-2 小结 ** 逻辑推理能力GLM-4、ChatGPT、Claude-2不分伯仲!** 工具调用 GLM-4 ChatGPT 小结 不相伯仲! GLM-4 新一代基座大模型GLM-4,整体性能相比GLM3全面提升60%,逼近GPT-4;支持更长上下文;更强的多模态;支持更快推理速度,更多并发,大大降低推理成本;同时GLM-4增强了智能体能力。 基础能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等数据集上,分别达到GPT-4 94%、95%、91%、99%、90%、100%的水平。 指令跟随能力:GLM-4在IFEval的prompt级别上中、英分别达到GPT-4的88%、85%的水平,在Instruction级别上中、英分别达到GPT-4的90%、89%的水平。 对齐能力:GLM-4在中文对齐能力上整体超过GPT-4

    1K10编辑于 2024-01-19
  • 来自专栏学谦数据运营

    Extreme DAX-第4上下文和筛选

    查询上下文可以直接通过视觉对象看到,但是筛选上下文是不能直接看到的,因此筛选上下文看起来要难一些。使用筛选上下文需要一定的抽象思维能力,并仔细地分析在特定情况下哪些筛选器处于活动状态。 4.3.4 步骤 4:对表达式进行计算 CALCULATE 工作顺序的最后一步很简单:在设置完筛选上下文、删除筛选器并添加新筛选器之后,我们就可以在新的上下文中计算第一个参数中的表达式了。 = 4 VAR TableVariable = FILTER( ALL(fSales[UnitAmount]), fSales[UnitAmount] = Variable4 ) RETURN TableVariable 注意 Variable4 和 TableVariable 在 CALCULATE 的筛选器参数中使用;两者都在原始查询上下文中进行计算。 让我们再次回顾一下 AvgUnitAmount4 的度量。

    7.4K21编辑于 2022-05-24
  • 来自专栏AgenticAI

    首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!

    400 万超长上下文,MiniMax-Text-01 能够高效处理高达 400 万 token的上下文,是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。 本文接下来将从实测、数据集评估、技术解析三个方面展开,深入探讨 MiniMax 如何在低成本的前提下实现高效超长上下文处理。 1. 实测 400 万超长上下文窗口,测试的场景可就太有意思了。 LongBench v2由清华大学领头开发,面向现实情景的长上下文基准测评数据集,涵盖多任务类别,具有高难度和多样性,重点测试模型的推理能力和计算扩展性。 不足的是代码编程能力稍弱,不过 MiniMax 在报告中表示这是由于编程数据集有限导致,已经在改进训练数据,预计下一版本就会有所改观。 4. 超长上下文的支持使得处理超大规模文本变得可能,也将能够催生一系列新兴的 Agentic 应用。

    1.6K10编辑于 2025-03-18
  • 来自专栏新智元

    推理随意开关,128k超长上下文

    刚刚,Hugging Face推出了目前最强的30亿参数模型SmolLM3: · 双推理模式:think,no_think · 超长上下文:最长可达128k · 多语言支持:英语、法语、西班牙语、德语、 NoPE编码:每隔4层移除旋转位置编码(RoPE),显著提升长文本处理能力,而短文本任务不受影响。 文档内注意力屏蔽:同一训练序列中不同文档的token彼此隔离,提升训练稳定性和长文本学习能力。 长上下文扩展 在主预训练完成后,额外训练了SmolLM3,进一步扩展模型的上下文处理能力。 基础模型 在各项任务中,SmolLM3始终优于其他3B模型,并且在与4B模型对比时也展现了强劲的竞争力。 在知识和推理类基准测试中,SmolLM3取得了第一或第二名,数学和编程能力也表现不俗。 正如下图所示,SmolLM3在推理能力和效率之间找到了最佳平衡点。 在计算成本较低的情况下,SmolLM3显著超越Qwen3 1.7B,并接近4B模型的性能,领先于测试的其他3B非推理模型。

    51310编辑于 2025-07-10
领券