首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏前端必修课

    超长上下文模型知识库实战

    承接上一篇《数据库接入大模型实战》,除了上述优化方案,还有一种更直接的方法:使用超长上下文的模型,将资料直接拖入对话框,让AI自动检索。 模型窗口进化与测试 如上图所示,过去两年内,模型的上下文窗口长度大幅提升。例如Gemini 2.0 Pro已支持2000万token的上下文,足以容纳四大名著。下面以Gemini为例进行测试。 本文以Gemini 2.0 Flash模型为例,支持100万token上下文,并有免费额度。 复制Gemini 2.0 Flash 模型ID。 回到 Cherry Studio,填写模型ID并添加。 整个《三国演义》仅消耗了约一半上下文窗口。利用Gemini超大上下文进行知识库检索,是一种高效方案。 总结与展望 AI知识库常被称为“demo五分钟,上线一年”。

    67920编辑于 2025-05-05
  • 来自专栏朴素人工智能

    Transformer-XL 超长上下文注意力模型

    快速传送门 1-4:[萌芽时代]、[风起云涌]、[文本分类通用技巧] 、 [GPT家族] 5-8:[BERT来临]、[浅析BERT代码]、[ERNIE合集]、[MT-DNN(KD)] 9-12:[Transformer 本文就提出了一种网络结构Transformer-XL,它不但可以捕捉文本更长时的依赖,同时可以解决文本被分成定长后产生的上下文碎片问题。 如此一来,两个片段之前的上下文信息可以进行有效的传递。 进一步地,作者提出,在理论上不仅仅可以储存并重用之前一个片段的结果,只要GPU允许,完全可以重用前几个片段的结果,使上下文联系更远。

    1.2K20发布于 2020-05-07
  • VFP AI 插件:超长上下文的识别(二)

    距离上一篇VFP AI 插件:超长上下文的识别(一)有些时间了。经过不断的试错和优化,终于完成了 VFP AI 插件的超长上下的识别。将时间从数小时压缩至最多几十分钟。

    10310编辑于 2026-03-10
  • VFP AI 插件:超长上下文的识别(一)

    VFP AI 插件在访问大模型时,有一个上下文长度的问题。 对于 DeepSeek 而言,其大小为 128K(=128000 token)。 VFP AI 插件 2025.12.15 版,初步实现超长上下文的处理: 所分析 VCX 类库,使用类浏览器转换出的 prg 格式文件,文件体积为 400+KB,共 10329 行,超过模型最大上下文的最大限制

    12910编辑于 2026-03-10
  • 来自专栏GiantPandaCV

    如何用Infini-attention实现超长上下文Transformer

    这允许模型在处理后续序列时回顾以前的上下文信息,从而支持无限长的输入处理。 这种方法允许模型以流式方式处理极长的输入,从而实现在有限的资源下扩展到无限长的上下文。 这种状态共享和重用不仅提高了插拔式长上下文适应的效率,也加速了训练和推理过程。 通过这些不同的内存和上下文窗口管理策略,各模型试图在内存效率和长期依赖建模能力之间找到平衡。 5. 讨论 在讨论Infini-Transformer及其Infini-attention机制时,我们可以从多个维度探讨其优点和潜在的缺点。

    1.3K10编辑于 2024-04-26
  • 来自专栏IT技术订阅

    月之暗面Kimi及超长上下文处理技术

    超长上下文处理:Kimi支持高达200万字的最长上下文输入,这是在大模型长上下文处理技术上的一个重要突破,使得它能够更好地理解和处理复杂、连贯的文本信息,比如用于论文总结、电影剧本分析、录音内容整理等。 5. 平台兼容性:为了方便不同用户的使用需求,Kimi提供了网页版、微信小程序以及手机APP版本,确保用户能够在各种设备和平台上无缝体验其服务。 6. Kimi实现超长上下文处理的技术原理 Kimi实现超长上下文处理的技术原理涉及到几个关键技术点,这些技术共同作用使其能够处理长达200万字的文本而不损失上下文信息,具体包括: 1. Kimi采用了更大规模的Transformer模型,并对模型结构进行了优化,以适应超长文本的处理需求。 2. 分块与重组技术:面对超长文本,直接将整个文本送入模型可能会超出硬件限制。 内存增强技术:为了保留长距离的上下文依赖,Kimi使用了外部记忆模块或者改进的递归机制,这允许模型在处理文本块时能够存取之前处理过的信息,从而维持长文本的连贯性和逻辑性。 5.

    4.3K10编辑于 2024-05-10
  • 来自专栏机器之心

    CMU、谷歌提出Transformer-XL:学习超长上下文关系

    由于上下文的长度是固定的,因此模型无法捕获任何超过预定义上下文长度的长期依赖性。此外,长度固定的片段都是在不考虑句子或其它语义边界的情况下通过选择连续的符号块来创建的。 因此,模型缺乏必要的上下文信息来很好地预测前几个符号,这就导致模型的优化效率和性能低下。我们将这个问题称为上下文碎片化。 为了解决上文提到的上下文固定长度的限制,本文提出了一种叫做 Transformer-XL(超长)的新架构。我们将循环概念引入了深度自注意力网络。 因此,对超长期依赖性建模成为了可能,因为信息可以通过循环连接来传播。同时,从之前的片段传递信息也可以解决上下文碎片化的问题。 我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。

    1K20发布于 2019-04-30
  • 来自专栏大模型系列

    万字长文详解DeepSeek:DeepSeek是什么-超长上下文

    2.超长上下文支持支持128Ktokens上下文窗口(部分版本达1M)。采用ALiBi(AttentionwithLinearBiases)或YaRN位置编码,有效缓解长度外推问题。

    3.4K60编辑于 2026-04-06
  • 来自专栏新智元

    清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!

    新智元报道 编辑:LRS 【新智元导读】挖掘大模型固有的长文本理解能力,InfLLM在没有引入额外训练的情况下,利用一个外部记忆模块存储超长上下文信息,实现了上下文长度的扩展。 为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研究人员联合提出无需额外训练的大模型长文本理解方法 InfLLM,利用少量计算和显存开销实现了 LLM的超长文本处理。 InfLLM旨在激发LLMs的内在能力,以有限的计算成本捕获超长上下文中的长距离语义依赖关系,从而实现高效的长文本理解。 作者构建了一个外部记忆模块,用于存储超长上下文信息;采用滑动窗口机制,每个计算步骤,只有与当前Token距离相近的Tokens(Local Tokens)和外部记忆模块中的少量相关信息参与到注意力层的计算中 然而,超长序列中的海量上下文对于记忆模块中有效的相关信息定位和记忆查找效率带来了重大挑战。 为了应对这些挑战,上下文记忆模块中每个记忆单元由一个语义块构成,一个语义块由连续的若干Token构成。

    2.1K10编辑于 2024-03-13
  • 来自专栏数据技巧

    Power Pivot概念(5)—理解上下文

    十、 上下文的理解 (一) 查询上下文 1. 定义 简单理解就是通过筛选查询得到的结果。 2. 说明 影响的方式包括:筛选器,切片器,透视表的行和列,透视图的轴等。 (二) 行上下文 根据信息所在的行决定的,并涉及到行的信息数据来计算。 1. 定义 行上下文可以被认为是当前行,如果在当前行创建公式,其参数就对应的是当前行的值。 2. 注意 行上下文也会涉及到关系。例如在多端引用1端数据是使用Related,则会默认当前行关联的数据。 4. 复杂的行上下文 根据行上下文筛选出的表在和原表做比较计算。 例如涉及到行数Earlier (三) 筛选上下文 1. 定义 对于查询上下文的进一步定义。可以直接在公式中指定过滤器表达式或动态获取计算中使用的值的上下文

    95220发布于 2020-03-23
  • 来自专栏机器之心

    面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

    最后提出了一个全面的方法论分类法 (第 2.3 节),旨在通过架构创新增强 LLM 的长上下文能力 (见图 1 (b))。这个分类法作为文章的第 3、4、5、6、7 节的指南。 长上下文,目前有哪些难点待突破? 注意力复杂度。 外推性 PEs (论文第 5 节):最新的研究致力于通过改进现有位置编码方案的外推性能来增强 LLM 的长度泛化能力。 未来方向 论文的第 3、4、5、6 节中讨论了该领域取得的显著进展,但仍然存在一些挑战。 在第 5 节中,作者对与基于 Transformer 的模型的长度外推相关的挑战进行了彻底的分析,重点关注了位置嵌入的普遍设计。

    1.5K10编辑于 2024-01-04
  • 来自专栏java金融

    超长JVM总结,面试必备

    JVM 是可运行 Java 代码的假想计算机 ,包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收,堆 和 一个存储方法域。JVM 是运行在操作系统之上的,它与硬件没有直接的交互。

    75120发布于 2020-08-05
  • 来自专栏c#Winform自定义控件系列

    c# 文本超长截断

    根据控件大小进行截断 private void SetStringTruncat(Static.LabelEx lbl) { string oldStr = lbl.Text; if (string.IsNullOrEmpty(oldStr)) return; Graphics g = lbl.CreateGraphics(); string strNewSt

    1K40发布于 2019-09-11
  • 来自专栏清菡软件测试

    Appium上下文和H5测试(一)

    目录 一、混合应用-H5 1.混合应用是什么? 2.怎么样分辨一个 App 页面究竟是原生的还是 Web 的? 5.想定位一个元素怎么操作? 四、代码 一、混合应用-H5 微信小程序的前提都是基于 H5,没有 H5 的情况下来操作微信小程序您可能不太明白。H5 是混合应用,有原生应用和混合应用。 1)在手机/模拟器中点击关于手机中的版本号 5 下,出来开发者选项。 2)在开发者选项中勾选上显示布局边界,再返回到 App 界面。 识别到 Web View 的前提是:下载知乎或者豆瓣,去获取所有当前可以操作的上下文,会发现没有 web view。也就是关闭了 Web View 的显示。 5.想定位一个元素怎么操作? 跟我们之前使用谷歌 F12 的套路是一样的。 ? 一个手机中除了这个 Web View 网页,可能还有别的 Web View 网页。

    1.2K20发布于 2020-12-02
  • 来自专栏清菡软件测试

    Appium上下文和H5测试(二)

    三、上下文切换 可用的上下文(Contexts) 列出所有可用的上下文(contexts) driver.contexts driver.window_handles 获取所有窗口的 handle,返回 当前上下文(context):列出当前的上下文(context) driver.current_context 切换至默认的上下文(context) 切换回默认的上下文(context)。 driver.current_package 上下文的操作方式在这里,和 Windows 窗口是一模一样的。和 Web 自动化中所谓的窗口是一样的。 首先列出所有可用的上下文。 列出所有可用的上下文,再去切换至需要的上下文。怎么切换呢?他们得到的结果也是个列表啊。 列表当中放的值呢,不是原生控件就是 WebView。所以它也有下标。 如果你想获取当前的窗口,当前的上下文,叫做driver.current_context。 它的做法与窗口是一模一样的。Web 自动化中叫做窗口,这里叫做上下文

    74820发布于 2020-11-30
  • 来自专栏coding个人笔记

    分片加载超长列表渲染

    很早以前就有面试问超长列表如何优化,那时候觉得一般前端不会有这种功能,有也是分页,也就没有去关注。今天分享一个超长列表渲染的优化方法,分片加载,现在几乎也都不会用了,但是还是要知道这个东西。 ) { console.log('页面渲染时间', new Date() - time);//页面渲染时间 4771 }) </script> Js执行很快,但是页面渲染要将近5

    68210发布于 2020-06-01
  • 来自专栏PostgreSQL研究与原理解析

    PostgreSQL异常宕机重启时间超长

    异常关闭后,重启后一直打印starting up,持续时间很长。并且,异常关闭前没有大量write的业务,也就是说没有需要大量恢复的redo日志。那么时间耗费在哪里了?

    1.5K20发布于 2020-10-28
  • 来自专栏清菡软件测试

    Appium上下文和H5测试(二)

    三、上下文切换 可用的上下文(Contexts) 列出所有可用的上下文(contexts) driver.contexts driver.window_handles 获取所有窗口的 handle,返回 当前上下文(context):列出当前的上下文(context) driver.current_context 切换至默认的上下文(context) 切换回默认的上下文(context)。 列出所有可用的上下文,再去切换至需要的上下文。怎么切换呢?他们得到的结果也是个列表啊。 列表当中放的值呢,不是原生控件就是 WebView。所以它也有下标。 如果你想获取当前的窗口,当前的上下文,叫做driver.current_context。 它的做法与窗口是一模一样的。Web 自动化中叫做窗口,这里叫做上下文。 上篇文章Appium上下文和H5测试(一) 中此处代码错了,应该改成这样: ? ----

    1.3K10发布于 2020-12-02
  • 来自专栏清菡软件测试

    Appium上下文和H5测试(一)

    目录 一、混合应用-H5 1.混合应用是什么? 2.怎么样分辨一个 App 页面究竟是原生的还是 Web 的? 5.想定位一个元素怎么操作? 四、代码 一、混合应用-H5 微信小程序的前提都是基于 H5,没有 H5 的情况下来操作微信小程序您可能不太明白。H5 是混合应用,有原生应用和混合应用。 1)在手机/模拟器中点击关于手机中的版本号 5 下,出来开发者选项。 2)在开发者选项中勾选上显示布局边界,再返回到 App 界面。 识别到 Web View 的前提是:下载知乎或者豆瓣,去获取所有当前可以操作的上下文,会发现没有 web view。也就是关闭了 Web View 的显示。 5.想定位一个元素怎么操作? 跟我们之前使用谷歌 F12 的套路是一样的。 一个手机中除了这个 Web View 网页,可能还有别的 Web View 网页。

    96140发布于 2020-11-25
  • 来自专栏新智元

    推理随意开关,128k超长上下文

    刚刚,Hugging Face推出了目前最强的30亿参数模型SmolLM3: · 双推理模式:think,no_think · 超长上下文:最长可达128k · 多语言支持:英语、法语、西班牙语、德语、 长上下文扩展 在主预训练完成后,额外训练了SmolLM3,进一步扩展模型的上下文处理能力。 此外,借鉴Qwen2.5,在推理阶段,这次采用YARN技术,将上下文窗口从训练时的64k外推至128k,上下文扩展了2倍。 推理中间训练阶段 为了进一步注入通用推理能力,还有一项训练:推理中间训练。 为此,团队追溯到推理中间训练阶段,发现模型长上下文处理能力有所损失。 此外,APO训练数据的上下文限制24k token。 为了解决这一问题并缓解性能下降,团队开始探索模型合并。 对于长上下文任务,在Ruler 64k基准测试中,SmolLM3表现突出。

    52010编辑于 2025-07-10
领券