首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏圣杰的专栏

    .NET+AI | MEAI | 上下文压缩(7)

    Chat Reducer:让 AI 对话突破上下文限制 一句话简介 Microsoft.Extensions.AI 的 Chat Reducer 通过智能压缩策略,在保持对话质量的前提下,有效控制上下文长度 核心价值 ✅ 突破限制:解决 LLM 上下文窗口限制(如 GPT-4 的 8K/32K tokens) ✅ 成本优化:减少输入 token,显著降低 API 调用成本 ✅ 性能提升:缩短上下文长度,加快模型推理速度 在多轮对话场景中,我们面临三大挑战: 挑战 问题 Chat Reducer 方案 上下文限制 超出模型限制导致请求失败 智能压缩到安全范围 成本失控 输入 token 越多费用越高 过滤冗余,只保留必要信息 SummarizingChatReducer(摘要压缩器) 利用 AI 自动生成摘要压缩历史对话。 核心特性: 超过阈值时自动调用 AI 生成摘要 摘要存储在 AdditionalProperties 中 渐进式压缩(新摘要包含旧摘要) 保留完整语义上下文 适用场景: 医疗咨询(完整病史重要)

    23810编辑于 2025-12-28
  • 来自专栏#大模型热点基础知识

    什么是上下文压缩?如何减少Token消耗?

    这就是上下文压缩要解决的核心问题:在保留关键信息的前提下,把输入token从几万降到几千,甚至几百。 二、什么是上下文压缩上下文压缩(ContextCompression)是指在保证回答质量的前提下,减少输入上下文的token数量的技术。 :普通摘要:把长文本压缩成短文本,目的是给人阅读上下文压缩:把上下文压缩成更适合大模型推理的形式,目的是提高推理效率和质量三、上下文压缩如何工作过滤型技术过滤型技术的核心是相似度计算,把不相关的内容直接删掉 解决方案:根据上下文长度和延迟预算选择压缩策略短文本(<2000字):不用压缩中等长度:用Embedding过滤超长文本:用递归摘要延迟敏感:用快速过滤,牺牲一些准确率上下文碎片化问题:检索出来的5个文档片段 上下文压缩的技术演进,从简单的截断到智能的语义压缩,本质上反映了我们对"信息价值"理解的深化。

    63010编辑于 2026-03-31
  • 来自专栏AI SPPECH

    85_多轮对话:上下文管理与压缩

    这使得上下文管理与压缩技术成为提升多轮对话性能的关键因素。 本教程将深入探讨2025年多轮对话上下文管理与压缩的最新技术进展,包括核心算法原理、实现方法、性能优化策略以及实际应用案例。 2.3 上下文管理的核心挑战 在实际应用中,多轮对话的上下文管理面临多重技术挑战: 信息选择性保留:如何识别和保留关键信息,过滤冗余内容 语义连贯性维护:在压缩上下文的同时确保对话语义连贯 实时性能平衡 3.2 上下文压缩技术 上下文压缩是在有限token预算内保留关键信息的核心技术。 量子计算加速:利用量子计算处理超大规模对话历史 7.2 新兴研究方向 7.2.1 理论研究热点 上下文理论模型:建立更完善的对话上下文理论模型 信息压缩极限:探索语义信息压缩的理论极限 认知启发架构: 总结与展望 多轮对话的上下文管理与压缩是构建高质量AI交互系统的关键技术。随着LLM技术的快速发展,上下文管理技术也在不断创新和演进。

    1.1K10编辑于 2025-11-16
  • 来自专栏YOLO大作战

    DeepSeek-OCR:基于光学压缩上下文处理

    ​ 论文核心摘要: 提出上下文光学压缩新范式 - 首次验证通过视觉模态压缩文本的可行性,在10倍压缩比下实现97%的解码精度 设计DeepEncoder创新架构 - 通过串联SAM-CLIP和16倍卷积压缩 - 光学压缩的渐进模糊特性为模拟人类遗忘机制、解决长上下文挑战提供了创新思路 这些贡献为VLM和LLM的长上下文处理提供了全新的技术路径。 这为历史长上下文压缩、大语言模型记忆遗忘机制等研究方向展现了可观潜力。 视觉-文本压缩研究我们选择Fox基准测试[21]来验证DeepSeek-OCR对文本丰富文档的压缩-解压缩能力,以初步探索上下文光学压缩的可行性与边界。 这些实验结果进一步揭示了上下文光学压缩的边界,这可能为VLM中视觉标记优化、LLM中上下文压缩及遗忘机制的研究提供有效的参考。4.3. 定性研究4.3.1.

    81131编辑于 2026-01-05
  • 来自专栏猫头虎博客专区

    LeetCode 6-10 题 详解 Java版 ( 万字 图文详解 LeetCode 算法题6-10 =====>>> <建议收藏>)

    今天我们一起学习了LeetCode 6-10 题的算法分析,感谢大家阅读,觉得不错记得收藏哦! 喜欢 请点个 + 关注

    23210编辑于 2024-04-07
  • 来自专栏python、mysql、go知识点积累

    07-02 django 6-10

    字段查询 all():返回模型类对应表格中的所有数据。 get():返回表格中满足条件的一条数据,如果查到多条数据,则抛异常:MultipleObjectsReturned, 查询不到数据,则抛异常:DoesNotExist。 filter():参数写查询条件,返回满足条件 QuerySet 集合数据。 条件格式: 模型类属性名__条件名=值 注意:此处是模型类属性名,不是表中的字段名 关于 filter 具体案例如下: 判等 exact。

    92340发布于 2020-04-14
  • Go在AI对话上下文压缩处理上的实践

    这是因为大模型有上下文长度限制,对话越长,历史消息越多,就越容易超限。结合我的理解,这篇文章分享一下如何实现上下文压缩,让你的 AI 应用既能"记住"关键信息,又能节省成本。 为什么需要上下文压缩? 面对上下文压缩,我们有三种主流策略: 摘要压缩:让 AI 把历史对话总结成一段摘要。适合长对话场景,比如客服机器人、知识问答。优点是信息损失小,缺点是需要额外 API 调用。 return callAI(prompt) } 什么时候触发压缩? 可以设置一个阈值,比如对话超过 15 轮时触发。也可以根据 Token 数量判断,超过总上下文的 70% 就压缩压缩前先估算当前上下文大小,别等到报错了才处理。 写在最后 今天我们介绍了三种 AI 对话上下文压缩策略: 摘要压缩:让 AI 总结历史,保留语义完整性。适合长对话场景。 滑动窗口:只保留最近 N 条,简单高效。适合实时性要求高的场景。

    33610编辑于 2026-03-02
  • 来自专栏C语言例题100题

    C语言经典例题100(6-10

    思路: 使用循环嵌套来写这个代码,我们首先要让i=1的时候,做一遍1的乘法运算,也就是说我们的j<=i,所以我们第二个for循环就可以写成是让j也从1开始遍历,范围要小于等于i,以此递增。

    27710编辑于 2025-06-04
  • 来自专栏大数据成长之路

    Hadoop源代码分析【6-10

    小结 Hadoop源代码分析【6-10】主要为大家科普了RPC实现通信的流程,以及 DataNode在升级 / 回滚/ 提交时底层的变化。

    64520发布于 2021-01-27
  • 来自专栏全栈开发那些事

    6-10 二分查找 (20分)

    L是用户传入的一个线性表,其中ElementType元素可以通过>、==、<进行比较,并且题目保证传入的数据是递增有序的。函数BinarySearch要查找X在Data中的位置,即数组下标(注意:元素从下标1开始存储)。找到则返回下标,否则返回一个特殊的失败标记NotFound。

    28120编辑于 2023-02-27
  • 来自专栏Gorit 带你学全栈系列

    编程入门、进阶100例(6-10题)

    本期用先用java去实现代码,后面我会慢慢补全c语言和python的代码 题目索引 六、温度转换问题 6.1 问题描述 6.2 示例 6.3 代码实现 七、求阶乘之和 7.1 问题描述 7.2 示例 7.3 代码实现 八、打印水仙花数 8.1 打印100~1000之间的水仙花数 8.2 示例 8.3 代码实现 九、求100~200以内的素数 9.1 问题描述 9.2 示例 9.3 代码实现 十、实现冒泡排序 10.1 问题描述 10.2 示例 10.3 代码实现 六、温度转换问题 6.1 问题描述 输

    59910编辑于 2021-12-09
  • 来自专栏机器学习/数据可视化

    MySQL50-4-第6-10

    MySQL50-4-第6-10题 本文中介绍的是第6-10题,涉及到的主要知识点: 模糊匹配和通配符使用 表的自连接 in/not in 连接查询的条件筛选 ?

    25010发布于 2021-03-01
  • 来自专栏Corley的开发笔记

    C语言经典习题100例(二)6-10

    给大家推荐一门大数据Spark入门课程https://www.bilibili.com/video/BV1oi4y147iD/,希望大家喜欢。

    46620发布于 2020-07-23
  • 来自专栏Java知识图谱

    Nginx网络压缩 CSS压缩 图片压缩 JSON压缩

    1、网络压缩原理 网络压缩的原理是消耗CPU资源,减少文件在公网传输的大小,提高响应速度。 二、网络压缩 此部分所有的压缩内容在浏览器端都会还原,特别需要指出的是图片,图片在网络间是压缩状态传输的,到达浏览器后是会被还原的。 技术实现依托gzip压缩,仅仅在服务器与客户端网络传输时对静态资源进程压缩,文件的大小在压缩前与还原后保持不变。 图片压缩分为两类:一是等比压缩;二是固定宽高压缩。根据应用场景的不同也分为两类:一是固定参数;二是动态参数。 此部分图片压缩后到达浏览器不会被还原。 (一)等比压缩 使用关键词resize实现等比压缩,指定宽度或者高度即可在原尺寸图片的基础上等比率压缩图片。如果同时指定宽度和高度,只有一个参数生效。

    6.7K41编辑于 2022-02-08
  • 来自专栏openclaw系列

    OpenClaw插件Lossless Claw(LCM):为 OpenClaw 带来无损上下文压缩的革命性

    随着对话轮次增加,token消耗迅速逼近模型上限,导致:新消息无法加入上下文关键历史信息被截断智能体“失忆”或逻辑断裂传统解决方案如“滑动窗口”或“简单摘要”虽能缓解问题,却以牺牲信息完整性为代价——一旦压缩 1.1传统压缩方法的致命缺陷方法原理问题截断(Truncation)丢弃最早消息丢失关键前提(如“用Python写”)滑动窗口仅保留最近N轮上下文碎片化,无法回溯LLM摘要让模型生成总结信息失真、细节丢失 二、核心技术:DAG+增量压缩=无损上下文2.1对话即图:构建语义依赖DAGLCM将整个对话历史建模为一个有向无环图(DirectedAcyclicGraph):节点(Node):每条用户/助手消息边( (继续10轮优化)850接近阈值(如900)15“现在改成用pandas实现”870触发压缩:•将前14轮构建DAG•压缩冗余交互•生成摘要节点(token=150)16AI返回pandas版本280上下文总 LCM执行DAG构建与增量压缩压缩后的上下文仍支持/resume、/review等操作这意味着:高级控制命令+无损压缩=可信赖的长期智能体六、性能与兼容性项目说明支持模型所有OpenClaw支持的模型(

    1.5K20编辑于 2026-03-27
  • 来自专栏媒矿工厂

    AAAI 2022 | OctAttention:基于八叉树的大规模上下文点云压缩模型

    该框架采用八叉树结构,通过收集点云中兄弟节点和祖先节点的信息以无损方式编码八叉树符号序列,从而实现点云的压缩。 引言 基于八叉树的压缩点云的模型对分辨率具有鲁棒性,并且它还利用比基于体素的模型更广泛的上下文。然而,先前基于八叉树的方法忽略了兄弟节点(即同一八叉树级别中的节点)的特征信息。 为此,作者提出了新的基于八叉树的点云压缩方法 OctAttention。作者将点云编码为八叉树,并将当前节点的祖先节点、兄弟节点以及兄弟节点的祖先的特征纳入上下文上下文模型 作者提出了扩展的大规模上下文以预测更准确的上下文占用分布情况。首先以广度优先的顺序遍历八叉树。 它证实了注意力机制可以利用大规模上下文中兄弟节点的相似特征来预测占用率。 结论 作者提出了新的基于八叉树的压缩模型 OctAttention,通过利用大规模上下文来进行稀疏和密集点云几何压缩

    92510编辑于 2024-02-21
  • 来自专栏又见苍岚

    上下文

    所以业务上下文变更需要慎之又慎。 运行程序上下文 大家应该对一句话有印象:(进程/线程)上下文切换开销很大。这里的上下文一般指的就是运行程序的上下文。 这里的通信问题就是进程上下文切换开销大的缘故。 方法/类所在的上下文(作用域) 方法上下文可以理解为方法所在的作用域。类亦如此。 还有一些比较特殊的概念实际上也是和方法上下文相关。 比如worker语言特性中,需要监听message事件,这实质上,就是在当前上下文监听另一个上下文的状态。再比如回调函数。实际上是因为上下文变更后,对原有上下文访问的一种编程手段。 从这个角度看,闭包实质上也是对上下文的一种操作手段:返回一个函数,该函数在当前上下文可以操作闭包上的上下文。 执行上下文:当函数或方法被调用时,它会创建一个执行上下文,这个上下文包括了局部变量、参数、返回地址等信息。在JavaScript等语言中,执行上下文还包括this的值。

    73710编辑于 2024-07-31
  • 来自专栏Jack96

    压缩压缩命令

    Linux 压缩解压命令 zip/unzip,文件后缀名为zip 压缩: zip 123.zip *.txt # 将所有的txt文件压缩成123.zip文件 zip -r test.zip 压缩: bzip2 1.txt # 将1.txt压缩成1.txt.bz2 解压: bunzip2 1.txt.bz2 bzip2 -d 1.txt.bz2 bzip2 -dk -z: 调用gzip/gunzip进行压缩解压操作,后缀名是.tar.gz -j: 调用bzip2/bunzip2进行压缩解压操作,后缀名是.tar.bz2 -C: 指定解压位置 Copy 注意:tar 只是用来打包和解包的工具,它本身是没有压缩和解压缩的功能。但是,通过添加参数,可以调用gzip或者bzip2进行压缩解压操作。 tar -z: 使用 gzip方式打包并压缩文件,后缀名为 .tar.gz,可以简写为 .tgz tar -j: 使用 bzip2 方式打包并压缩文件,后缀名为 .tar.bzip2,可以简写为

    2.2K20编辑于 2023-03-07
  • 来自专栏福大大架构师每日一题

    agno v2.3.3 发布:引入上下文压缩与内存优化,增强文件搜索和异步支持

    2025 年 11 月 27 日,agno 发布了 v2.3.3 版本,本次更新带来了多项新功能、性能改进以及 Bug 修复,尤其是在上下文管理、内存优化、文件搜索和异步支持方面有了显著增强。 上下文压缩(Context Compression) • 新增运行时压缩工具调用结果的功能,有助于在智能体运行过程中对上下文进行管理。 • 该功能可以帮助智能体保持在上下文窗口范围内,避免触发速率限制或响应质量下降。 • 功能为 Beta 版,可参考官方文档获取更多信息。 2. • 引入记忆优化与工具调用压缩功能。 • 优化 AWS Claude 兼容性及 API 密钥支持。 • 增加 Gemini 文件搜索支持。 • 修复测试用例中异步知识访问的稳定性问题。 五、总结 代码地址:github.com/agno-agi/agno agno v2.3.3 版本是一次 功能与性能的双重提升 更新,尤其在 上下文压缩、内存优化、文件搜索能力 方面有重大改进,同时增强了

    29310编辑于 2025-12-19
  • 来自专栏福大大架构师每日一题

    ollama v0.17.7 最新发布:思考层级正确解析、上下文压缩强化,核心模块全面优化!

    这一版本相较于此前版本在“思考(thinking)模型”的解析逻辑、上下文压缩机制、云模型上下文限制、以及集成接口的兼容性层面都有了实质性的优化。 新增上下文长度(Context Length)支持: 当使用 ollama launch 启动时,系统支持自动压缩适配上下文,提升长文本推理能力。 3. (二)新的上下文长度支持与压缩机制 1. 支持上下文压缩(compaction) 命令行工具 ollama launch 现在可以根据模型定义的上下文长度进行压缩计算。 这一机制允许系统在长上下文对话中动态压缩历史轮次,将上下文保持在最佳 token 范围内,确保推理完整性与响应速度。

    81710编辑于 2026-03-09
领券