首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏圣杰的专栏

    .NET+AI | MEAI | 上下文压缩(7)

    Chat Reducer:让 AI 对话突破上下文限制 一句话简介 Microsoft.Extensions.AI 的 Chat Reducer 通过智能压缩策略,在保持对话质量的前提下,有效控制上下文长度 核心价值 ✅ 突破限制:解决 LLM 上下文窗口限制(如 GPT-4 的 8K/32K tokens) ✅ 成本优化:减少输入 token,显著降低 API 调用成本 ✅ 性能提升:缩短上下文长度,加快模型推理速度 在多轮对话场景中,我们面临三大挑战: 挑战 问题 Chat Reducer 方案 上下文限制 超出模型限制导致请求失败 智能压缩到安全范围 成本失控 输入 token 越多费用越高 过滤冗余,只保留必要信息 核心特性: 超过阈值时自动调用 AI 生成摘要 摘要存储在 AdditionalProperties 中 渐进式压缩(新摘要包含旧摘要) 保留完整语义上下文 适用场景: 医疗咨询(完整病史重要) [User] 问题5 [User] 问题5 [Assistant] 回答5 [Assistant] 回答5 [User] 问题6 [User] 问题6

    23810编辑于 2025-12-28
  • 来自专栏iSharkFly

    Confluence 6 启用 HTTP 压缩

    启用 HTTP 响应压缩(Compress HTTP Responses)。 你可以配置那些内容在传输的时候被压缩,这些配置是在 Confluence 中的。 在默认的情况下,下面的 mime 类型将会被压缩: text/htmltext javascript text/css text/plain application/x-javascript application /javascript 如果你希望修改压缩内容的类型,添加一个替代的 urlrewrite-gzip-default.xml 文件到  WEB-INF/classes/com/atlassian/gzipfilter https://www.cwiki.us/display/CONF6ZH/Compressing+an+HTTP+Response+within+Confluence

    53630发布于 2019-01-30
  • 来自专栏#大模型热点基础知识

    什么是上下文压缩?如何减少Token消耗?

    这就是上下文压缩要解决的核心问题:在保留关键信息的前提下,把输入token从几万降到几千,甚至几百。 二、什么是上下文压缩上下文压缩(ContextCompression)是指在保证回答质量的前提下,减少输入上下文的token数量的技术。 :普通摘要:把长文本压缩成短文本,目的是给人阅读上下文压缩:把上下文压缩成更适合大模型推理的形式,目的是提高推理效率和质量三、上下文压缩如何工作过滤型技术过滤型技术的核心是相似度计算,把不相关的内容直接删掉 解决方案:根据上下文长度和延迟预算选择压缩策略短文本(<2000字):不用压缩中等长度:用Embedding过滤超长文本:用递归摘要延迟敏感:用快速过滤,牺牲一些准确率上下文碎片化问题:检索出来的5个文档片段 上下文压缩的技术演进,从简单的截断到智能的语义压缩,本质上反映了我们对"信息价值"理解的深化。

    63010编辑于 2026-03-31
  • 来自专栏Learn Claude Code

    【从零手写 ClaudeCode:learn-claude-code 项目实战笔记】(6)Context Compact (上下文压缩)

    第六章ContextCompact(上下文压缩)s01>s02>s03>s04>s05>[s06]|s07>s08>s09>s10>s11>s12“本专栏基于开源项目learn-claude-code的官方文档 ,仅保留关键信息优势:自动化处理,确保智能体永远不会因上下文过长而失效Layer3:compacttool(手动压缩)触发方式:智能体主动调用compact工具使用场景:当智能体意识到需要重置上下文或聚焦特定任务时优势 通过四个阶段实现智能上下文压缩:1、扫描并收集所有工具调用结果;2、然后基于保留策略判断是否需要压缩;3、构建工具ID到名称的映射关系以维持语义完整性;4、将冗余的历史结果替换为简洁的占位符,从而在保持对话连贯性的同时显著减少 信息没有真正丢失,只是移出了活跃上下文。 四、相对s05的变更组件之前(s05)之后(s06)Tools55(基础+compact)上下文管理无三层压缩Micro-compact无旧结果->占位符Auto-compact无token阈值触发Transcripts

    47200编辑于 2026-03-10
  • 来自专栏AI SPPECH

    85_多轮对话:上下文管理与压缩

    这使得上下文管理与压缩技术成为提升多轮对话性能的关键因素。 本教程将深入探讨2025年多轮对话上下文管理与压缩的最新技术进展,包括核心算法原理、实现方法、性能优化策略以及实际应用案例。 3.2 上下文压缩技术 上下文压缩是在有限token预算内保留关键信息的核心技术。 推理优化:使用ONNX Runtime或TensorRT等加速框架 根据NVIDIA在2025年的研究报告,结合量化和知识蒸馏的优化可以将上下文处理速度提高4-6倍,同时保持95%以上的性能。 6. 实际应用案例 6.1 企业客服系统 6.1.1 技术架构 企业客服系统是上下文管理技术的典型应用场景,特别是在需要处理大量重复问题和复杂技术咨询的行业。 量子计算加速:利用量子计算处理超大规模对话历史 7.2 新兴研究方向 7.2.1 理论研究热点 上下文理论模型:建立更完善的对话上下文理论模型 信息压缩极限:探索语义信息压缩的理论极限 认知启发架构:

    1.1K10编辑于 2025-11-16
  • 来自专栏YOLO大作战

    DeepSeek-OCR:基于光学压缩上下文处理

    ​ 论文核心摘要: 提出上下文光学压缩新范式 - 首次验证通过视觉模态压缩文本的可行性,在10倍压缩比下实现97%的解码精度 设计DeepEncoder创新架构 - 通过串联SAM-CLIP和16倍卷积压缩 - 光学压缩的渐进模糊特性为模拟人类遗忘机制、解决长上下文挑战提供了创新思路 这些贡献为VLM和LLM的长上下文处理提供了全新的技术路径。 这为历史长上下文压缩、大语言模型记忆遗忘机制等研究方向展现了可观潜力。 这些实验结果进一步揭示了上下文光学压缩的边界,这可能为VLM中视觉标记优化、LLM中上下文压缩及遗忘机制的研究提供有效的参考。4.3. 定性研究4.3.1. 该方法为平衡信息保留与计算约束、理论上实现无限上下文的架构指明了一条路径,尽管这种视觉-文本压缩系统的实际意义和局限性仍有待在未来的研究中深入探讨。6.

    81131编辑于 2026-01-05
  • 来自专栏黯羽轻扬

    打包压缩加密备份_bash笔记6

    /tmp 减少中间文件,减少读写磁盘,效率更高一些 tar默认只是归档,用来打包文件,不压缩,提供了压缩选项: # -z压缩为zip格式 tar -a -cf bash.tar.gz "*.sh" # -j压缩为bunzip2格式 tar -a -cf bash.tar.bz2 "*.sh" # --lzma压缩为lzma格式(Mac下没有该选项) tar -a -cf bash.tar.lzma tar ,gzip命令只能压缩单文件,无法直接处理目录和多个文件。 gunzip test.sh.gz 查看: # -l列出包内文件名、压缩前后大小、压缩比 gzip -l test.sh.gz 也配合stdin/stdout使用: # -c输出到stdout cat zip 非常常见的压缩格式,压缩比不很高,但很多网络资源都是这个格式 压缩: # 生成test.sh.zip,不删除test.sh zip test.sh.zip test.sh # -r递归处理目录

    1.5K30发布于 2019-06-12
  • Go在AI对话上下文压缩处理上的实践

    这是因为大模型有上下文长度限制,对话越长,历史消息越多,就越容易超限。结合我的理解,这篇文章分享一下如何实现上下文压缩,让你的 AI 应用既能"记住"关键信息,又能节省成本。 为什么需要上下文压缩? 面对上下文压缩,我们有三种主流策略: 摘要压缩:让 AI 把历史对话总结成一段摘要。适合长对话场景,比如客服机器人、知识问答。优点是信息损失小,缺点是需要额外 API 调用。 return callAI(prompt) } 什么时候触发压缩? 可以设置一个阈值,比如对话超过 15 轮时触发。也可以根据 Token 数量判断,超过总上下文的 70% 就压缩压缩前先估算当前上下文大小,别等到报错了才处理。 写在最后 今天我们介绍了三种 AI 对话上下文压缩策略: 摘要压缩:让 AI 总结历史,保留语义完整性。适合长对话场景。 滑动窗口:只保留最近 N 条,简单高效。适合实时性要求高的场景。

    33610编辑于 2026-03-02
  • 来自专栏归思君的技术博客

    从 ECMAScript 6 角度谈谈执行上下文

    ,用ES6规范解读的比较少,所以想从ES6的角度看一下执行上下文。 下面我尝试用ECMAScript 6规范文档,来聊聊执行上下文,文章主要从这几个方面介绍: ES6规范中的词法环境 ES6规范中定义的执行上下文结构 从ES6规范看实际代码的执行流程 一、 什么是执行上下文 下面根据上下文中的抽象方法,来看看执行上下文中的this值是怎样变化的: 6. 从ES6规范我们知道: 执行上下文栈是用来跟踪执行上下文的,当前处于栈顶的是正在运行的执行上下文 调用其他关联的可执行代码时,会创建一个新的执行上下文,并将这个新的执行上下文压入栈顶 借助一个例子来说明 第四步:执行完a()后,将a()函数执行上下文出栈: 第五步:执行完b()后,将b()函数执行上下文出栈,最后只留下全局执行上下文 五、从 ECMAScript6 角度看代码的执行流程 代码的执行主要分为两个阶段

    41110编辑于 2023-12-22
  • 来自专栏用户7890857的专栏

    6、Redis数据结构——压缩列表-ziplist

    压缩列表 压缩列表是列表键和哈希键的底层实现之一。当一个列表键只包含少量列表项,并且每个列表项要么是小整数值,要么是长度比较短的字符串,那么redis就会使用压缩列表来作为列表键的底层实现。 压缩列表构成 struct ziplist<T>{ // 整个压缩列表占用字节数 int32 zlbytes; // 最后一个节点到压缩列表起始位置的偏移量,可以用来快速的定位到压缩列表中的最后一个元素 ,其中,字节数组可以是一下三种长度的其中一种: 长度小于等于63(2^6-1)字节的字节数组 长度小于等于16383(2^14-1)字节的字节数组 长度小于等于4294967295(2^32-1)字节的字节数组 压缩列表的从表尾向表头遍历操作就是使用这一原理实现的,只要我们拥有了一个指向某个节点起始地址的指针,程序就可以一直向前一个节点回溯,最终到达压缩列表的表头节点。 压缩列表是一种为节约内存开发的顺序型数据结构。 压缩列表被用作列表键和哈希键的底层实现之一。 压缩列表可以包含多个节点,每个节点可以包含一个字节数组或整数值。

    1.1K00发布于 2021-06-05
  • 来自专栏算法进阶

    6种神经网络的压缩方法

    神经网络的压缩算法是,旨在将一个庞大而复杂的预训练模型(pre-trained model)转化为一个精简的小模型。 按照压缩过程对网络结构的破坏程度,我们将模型压缩技术分为 “前端压缩” 和 “后端压缩” 两部分。 前端压缩,是指在不改变原网络结构的压缩技术,主要包括知识蒸馏、轻量级网络(紧凑的模型结构设计)以及滤波器(filter)层面的剪枝(结构化剪枝)等; 后端压缩,是指包括低秩近似、未加限制的剪枝(非结构化剪枝 总结:前端压缩几乎不改变原有网络结构(仅仅只是在原模型基础上减少了网络的层数或者滤波器个数),后端压缩对网络结构有不可逆的大幅度改变,造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。 剪枝操作对网络结构的破坏程度极小,将剪枝与其他后端压缩技术相结合,能够达到网络模型最大程度压缩,目前工业界有使用剪枝方法进行模型压缩的案例。

    1.2K20编辑于 2023-08-28
  • 来自专栏仁扬笔记

    Redis的设计与实现(6)-压缩列表

    _t 4 字节 记录整个压缩列表占用的内存字节数: 在对压缩列表进行内存重分配, 或者计算 zlend 的位置时使用. zltail uint32_t 4 字节 记录压缩列表表尾节点距离压缩列表的起始地址有多少字节 : 长度小于等于 63 (2^{6}-1)字节的字节数组; 长度小于等于 16383 (2^{14}-1) 字节的字节数组; 长度小于等于 4294967295 (2^{32}-1)字节的字节数组; 而整数值则可以是以下六种长度的其中一种 压缩列表 API 函数 作用 算法复杂度 ziplistNew 创建一个新的压缩列表。 O(1) ziplistPush 创建一个包含给定值的新节点, 并将这个新节点添加到压缩列表的表头或者表尾。 总结 压缩列表是一种为节约内存而开发的顺序型数据结构. 压缩列表被用作列表键和哈希键的底层实现之一. 压缩列表可以包含多个节点,每个节点可以保存一个字节数组或者整数值. 添加新节点到压缩列表, 或者从压缩列表中删除节点, 可能会引发连锁更新操作, 但这种操作出现的几率并不高.

    45800编辑于 2023-06-27
  • 来自专栏计算机视觉

    6 种 卷积神经网络压缩方法

    按照压缩过程对网络结构的破环程度,我们将模型压缩技术分为“前端压缩”和“后端压缩”两部分。 前端压缩:是指在不改变原网络结构的压缩技术,主要包括知识蒸馏、轻量级网络(紧凑的模型结构设计)以及滤波器(filter)层面的剪枝(结构化剪枝)等; 后端压缩:是指包括低秩近似、未加限制的剪枝(非结构化剪枝 总结:前端压缩几乎不改变原有网络结构(仅仅只是在原模型基础上减少了网络的层数或者滤波器个数),后端压缩对网络结构有不可逆的大幅度改变,造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。 剪枝操作对网络结构的破坏程度极小,将剪枝与其他后端压缩技术相结合,能够达到网络模型最大程度压缩,目前工业界有使用剪枝方法进行模型压缩的案例。 6、浅层 / 轻量网络 浅层网络:通过设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的逼近,但是浅层网络的表达能力很难与深层网络相匹敌。

    38510编辑于 2024-03-19
  • 来自专栏数据派THU

    6种卷积神经网络压缩方法

    神经网络的压缩算法是,旨在将一个庞大而复杂的预训练模型(pre-trained model)转化为一个精简的小模型。 按照压缩过程对网络结构的破坏程度,我们将模型压缩技术分为 “前端压缩” 和 “后端压缩” 两部分。 前端压缩,是指在不改变原网络结构的压缩技术,主要包括知识蒸馏、轻量级网络(紧凑的模型结构设计)以及滤波器(filter)层面的剪枝(结构化剪枝)等; 后端压缩,是指包括低秩近似、未加限制的剪枝(非结构化剪枝 总结:前端压缩几乎不改变原有网络结构(仅仅只是在原模型基础上减少了网络的层数或者滤波器个数),后端压缩对网络结构有不可逆的大幅度改变,造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。 剪枝操作对网络结构的破坏程度极小,将剪枝与其他后端压缩技术相结合,能够达到网络模型最大程度压缩,目前工业界有使用剪枝方法进行模型压缩的案例。

    45310编辑于 2023-04-25
  • 来自专栏机器学习与统计学

    上下文工程比提示词工程更重要,6上下文管理策略

    这是一门科学,因为正确地做到这一点需要任务描述和解释、少量示例、检索增强(RAG)、相关(可能跨模态)数据、工具、状态和历史记录,以及信息的压缩……如果信息不足或形式不对,LLM 将无法获得最佳性能所需的正确背景 通过文件系统读写包含大量 token 的上下文(参考:Manus[4])。 将文件用于存储长期记忆(参考:Ambient Agents course[5]/repo[6])。 在前缀后添加可变上下文 / 近期观察结果。 总结:有得必有失,压缩过程中存在信息丢失的风险,这是一个问题。因此,更倾向于采用转移(上下文负担)的方式。多智能体之间存在协调问题,这也是一种风险。 先回顾长上下文失效的四种模式: 上下文中毒,即幻觉或错误进入上下文并被反复引用; 上下文干扰,上下文过长使模型过度关注上下文而忽视训练内容; 上下文混淆,模型利用上下文中多余信息生成低质量回复; 上下文冲突 Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus [5] course: https://academy.langchain.com/courses/ambient-agents/ [6]

    82610编辑于 2025-07-27
  • 来自专栏javascript趣味编程

    6 不可压缩牛顿流体流动

    %parametersthat can be modified 4. nx=40;%number of points 5. ny=40; 6. xmin=0;xmax=1; %domain dimentions

    91800发布于 2018-08-08
  • 来自专栏Python数据科学

    使用K-Means算法将图像压缩6倍!

    此外,我们还将讨论如何使用K-Means来压缩图像。 在深入研究K-Means算法的细节之前,让我们先了解一下无监督的机器学习是什么,以及它的实际应用是什么。 使用K-Means进行图像压缩 是时候测试我们对K-Means的知识并将其应用于解决现实生活中的问题了。我们将使用K-Means来执行图像压缩。 最左边的图像描绘了实际图像。 中间图像描绘了一个压缩图像,但剩下一点点分辨率。最右边的图像描绘了高度压缩和低分辨率的图像。压缩已经使用K-Means完成。 考虑你有一个大小为128 X 128 X 3的图像。 显然,我们将图像压缩6倍!结果惊人! 请记住,较高的K值意味着你不会大幅压缩图像,也就是说你将保留很多分辨率。但是,如果要选择较小的K值,则图像将被高度压缩,因此分辨率较低。

    1.6K30发布于 2019-04-09
  • 来自专栏Java知识图谱

    Nginx网络压缩 CSS压缩 图片压缩 JSON压缩

    1、网络压缩原理 网络压缩的原理是消耗CPU资源,减少文件在公网传输的大小,提高响应速度。 二、网络压缩 此部分所有的压缩内容在浏览器端都会还原,特别需要指出的是图片,图片在网络间是压缩状态传输的,到达浏览器后是会被还原的。 技术实现依托gzip压缩,仅仅在服务器与客户端网络传输时对静态资源进程压缩,文件的大小在压缩前与还原后保持不变。 图片压缩分为两类:一是等比压缩;二是固定宽高压缩。根据应用场景的不同也分为两类:一是固定参数;二是动态参数。 此部分图片压缩后到达浏览器不会被还原。 (一)等比压缩 使用关键词resize实现等比压缩,指定宽度或者高度即可在原尺寸图片的基础上等比率压缩图片。如果同时指定宽度和高度,只有一个参数生效。

    6.7K41编辑于 2022-02-08
  • 来自专栏计算机视觉战队

    量化新方法 | 模型压缩6倍,无需重训练

    将参数x0从0到1,并将位数从2改为6。 在表1和表2中收集了获得的结果,并在图3和图4中显示了它们。 ? ? ? ? ? 在上图中,给出了神经网络离散化的过程。 应特别注意倒数第二排。 RUDN 大学的 Iakov Karandashev 补充说道:「量化之后,分类准确率仅降低了 1%,但是所需的存储容量减少了 6 倍。

    92910发布于 2021-03-13
  • 来自专栏自动化、性能测试

    性能测试必备知识(6)- 如何查看“CPU 上下文切换”

    without-mysql make && make install 百度云链接 链接:https://pan.baidu.com/s/1a9qR9GNzEbj1rkDp2wXfIw 提取码:kone 下载压缩包放到服务器 结果分析 cswch:每秒自愿上下文切换 nvcswch:每秒非自愿上下文切换的次数 自愿上下文切换 进程无法获取所需自愿,导致的上下文切换 栗子:I/O、内存等系统资源不足时,就会发生 非自愿上下文切换 非自愿上下文切换,则是指进程由于时间片已到等原因,被系统强制调度,进而发生的上下文切换 栗子:大量进程都在争抢 CPU 时,就容易发生非自愿上下文切换 通过栗子去看上下文切换 前期准备 安装 sysbench 每秒上下文切换多少次才算正常? 根据上下文切换的类型,具体分析 自愿上下文切换多了,说明进程都在等待资源,有可能发生了 I/O 等其他问题 非自愿上下文切换多了,说明进程都在被强制调度,也就是都在争抢 CPU,说明 CPU 的确成了瓶颈

    3.2K10发布于 2020-07-27
领券