搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏圣杰的专栏
.NET+AI | MEAI | 上下文压缩（7）
Chat Reducer：让 AI 对话突破上下文限制一句话简介 Microsoft.Extensions.AI 的 Chat Reducer 通过智能压缩策略,在保持对话质量的前提下,有效控制上下文长度核心价值 ✅ 突破限制:解决 LLM 上下文窗口限制(如 GPT-4 的 8K/32K tokens) ✅ 成本优化:减少输入 token,显著降低 API 调用成本 ✅ 性能提升:缩短上下文长度,加快模型推理速度在多轮对话场景中,我们面临三大挑战: 挑战问题 Chat Reducer 方案 上下文限制超出模型限制导致请求失败智能压缩到安全范围成本失控输入 token 越多费用越高过滤冗余,只保留必要信息核心特性: 超过阈值时自动调用 AI 生成摘要摘要存储在 AdditionalProperties 中渐进式压缩(新摘要包含旧摘要) 保留完整语义上下文 适用场景: 医疗咨询(完整病史重要) [User] 问题5 [User] 问题5 [Assistant] 回答5 [Assistant] 回答5 [User] 问题6 [User] 问题6
23810编辑于 2025-12-28
来自专栏iSharkFly
Confluence 6 启用 HTTP 压缩
启用 HTTP 响应压缩（Compress HTTP Responses）。你可以配置那些内容在传输的时候被压缩，这些配置是在 Confluence 中的。在默认的情况下，下面的 mime 类型将会被压缩： text/htmltext javascript text/css text/plain application/x-javascript application /javascript 如果你希望修改压缩内容的类型，添加一个替代的 urlrewrite-gzip-default.xml 文件到 WEB-INF/classes/com/atlassian/gzipfilter https://www.cwiki.us/display/CONF6ZH/Compressing+an+HTTP+Response+within+Confluence
53630发布于 2019-01-30
来自专栏#大模型热点基础知识
什么是上下文压缩？如何减少Token消耗？
这就是上下文压缩要解决的核心问题：在保留关键信息的前提下，把输入token从几万降到几千，甚至几百。二、什么是上下文压缩？上下文压缩（ContextCompression）是指在保证回答质量的前提下，减少输入上下文的token数量的技术。：普通摘要：把长文本压缩成短文本，目的是给人阅读上下文压缩：把上下文压缩成更适合大模型推理的形式，目的是提高推理效率和质量三、上下文压缩如何工作过滤型技术过滤型技术的核心是相似度计算，把不相关的内容直接删掉解决方案：根据上下文长度和延迟预算选择压缩策略短文本（<2000字）：不用压缩中等长度：用Embedding过滤超长文本：用递归摘要延迟敏感：用快速过滤，牺牲一些准确率上下文碎片化问题：检索出来的5个文档片段 上下文压缩的技术演进，从简单的截断到智能的语义压缩，本质上反映了我们对"信息价值"理解的深化。
63010编辑于 2026-03-31
来自专栏Learn Claude Code
【从零手写 ClaudeCode：learn-claude-code 项目实战笔记】（6）Context Compact (上下文压缩)
第六章ContextCompact(上下文压缩)s01>s02>s03>s04>s05>[s06]|s07>s08>s09>s10>s11>s12“本专栏基于开源项目learn-claude-code的官方文档，仅保留关键信息优势：自动化处理，确保智能体永远不会因上下文过长而失效Layer3:compacttool（手动压缩）触发方式：智能体主动调用compact工具使用场景：当智能体意识到需要重置上下文或聚焦特定任务时优势通过四个阶段实现智能上下文压缩：1、扫描并收集所有工具调用结果；2、然后基于保留策略判断是否需要压缩；3、构建工具ID到名称的映射关系以维持语义完整性；4、将冗余的历史结果替换为简洁的占位符，从而在保持对话连贯性的同时显著减少信息没有真正丢失,只是移出了活跃上下文。四、相对s05的变更组件之前(s05)之后(s06)Tools55(基础+compact)上下文管理无三层压缩Micro-compact无旧结果->占位符Auto-compact无token阈值触发Transcripts
47200编辑于 2026-03-10
来自专栏AI SPPECH
85_多轮对话：上下文管理与压缩
这使得上下文管理与压缩技术成为提升多轮对话性能的关键因素。本教程将深入探讨2025年多轮对话上下文管理与压缩的最新技术进展，包括核心算法原理、实现方法、性能优化策略以及实际应用案例。 3.2 上下文压缩技术 上下文压缩是在有限token预算内保留关键信息的核心技术。推理优化：使用ONNX Runtime或TensorRT等加速框架根据NVIDIA在2025年的研究报告，结合量化和知识蒸馏的优化可以将上下文处理速度提高4-6倍，同时保持95%以上的性能。 6. 实际应用案例 6.1 企业客服系统 6.1.1 技术架构企业客服系统是上下文管理技术的典型应用场景，特别是在需要处理大量重复问题和复杂技术咨询的行业。量子计算加速：利用量子计算处理超大规模对话历史 7.2 新兴研究方向 7.2.1 理论研究热点 上下文理论模型：建立更完善的对话上下文理论模型信息压缩极限：探索语义信息压缩的理论极限认知启发架构：
1.1K10编辑于 2025-11-16
来自专栏YOLO大作战
DeepSeek-OCR：基于光学压缩的上下文处理
论文核心摘要：提出上下文光学压缩新范式 - 首次验证通过视觉模态压缩文本的可行性，在10倍压缩比下实现97%的解码精度设计DeepEncoder创新架构 - 通过串联SAM-CLIP和16倍卷积压缩 - 光学压缩的渐进模糊特性为模拟人类遗忘机制、解决长上下文挑战提供了创新思路这些贡献为VLM和LLM的长上下文处理提供了全新的技术路径。这为历史长上下文压缩、大语言模型记忆遗忘机制等研究方向展现了可观潜力。这些实验结果进一步揭示了上下文光学压缩的边界，这可能为VLM中视觉标记优化、LLM中上下文压缩及遗忘机制的研究提供有效的参考。4.3. 定性研究4.3.1. 该方法为平衡信息保留与计算约束、理论上实现无限上下文的架构指明了一条路径，尽管这种视觉-文本压缩系统的实际意义和局限性仍有待在未来的研究中深入探讨。6.
81131编辑于 2026-01-05
来自专栏黯羽轻扬
打包压缩加密备份_bash笔记6
/tmp 减少中间文件，减少读写磁盘，效率更高一些 tar默认只是归档，用来打包文件，不压缩，提供了压缩选项： # -z压缩为zip格式 tar -a -cf bash.tar.gz "*.sh" # -j压缩为bunzip2格式 tar -a -cf bash.tar.bz2 "*.sh" # --lzma压缩为lzma格式（Mac下没有该选项） tar -a -cf bash.tar.lzma tar ，gzip命令只能压缩单文件，无法直接处理目录和多个文件。 gunzip test.sh.gz 查看： # -l列出包内文件名、压缩前后大小、压缩比 gzip -l test.sh.gz 也配合stdin/stdout使用： # -c输出到stdout cat zip 非常常见的压缩格式，压缩比不很高，但很多网络资源都是这个格式压缩： # 生成test.sh.zip，不删除test.sh zip test.sh.zip test.sh # -r递归处理目录
1.5K30发布于 2019-06-12
Go在AI对话上下文压缩处理上的实践
这是因为大模型有上下文长度限制，对话越长，历史消息越多，就越容易超限。结合我的理解，这篇文章分享一下如何实现上下文压缩，让你的 AI 应用既能"记住"关键信息，又能节省成本。为什么需要上下文压缩？面对上下文压缩，我们有三种主流策略：摘要压缩：让 AI 把历史对话总结成一段摘要。适合长对话场景，比如客服机器人、知识问答。优点是信息损失小，缺点是需要额外 API 调用。 return callAI(prompt) } 什么时候触发压缩？可以设置一个阈值，比如对话超过 15 轮时触发。也可以根据 Token 数量判断，超过总上下文的 70% 就压缩。压缩前先估算当前上下文大小，别等到报错了才处理。写在最后今天我们介绍了三种 AI 对话上下文压缩策略：摘要压缩：让 AI 总结历史，保留语义完整性。适合长对话场景。滑动窗口：只保留最近 N 条，简单高效。适合实时性要求高的场景。
33610编辑于 2026-03-02
来自专栏归思君的技术博客
从 ECMAScript 6 角度谈谈执行上下文
，用ES6规范解读的比较少，所以想从ES6的角度看一下执行上下文。下面我尝试用ECMAScript 6规范文档，来聊聊执行上下文，文章主要从这几个方面介绍： ES6规范中的词法环境 ES6规范中定义的执行上下文结构从ES6规范看实际代码的执行流程一、什么是执行上下文 下面根据上下文中的抽象方法，来看看执行上下文中的this值是怎样变化的： 6. 从ES6规范我们知道：执行上下文栈是用来跟踪执行上下文的，当前处于栈顶的是正在运行的执行上下文 调用其他关联的可执行代码时，会创建一个新的执行上下文，并将这个新的执行上下文压入栈顶借助一个例子来说明第四步：执行完a()后，将a()函数执行上下文出栈：第五步：执行完b()后，将b()函数执行上下文出栈，最后只留下全局执行上下文 五、从 ECMAScript6 角度看代码的执行流程代码的执行主要分为两个阶段
41110编辑于 2023-12-22
来自专栏用户7890857的专栏
6、Redis数据结构——压缩列表-ziplist
压缩列表压缩列表是列表键和哈希键的底层实现之一。当一个列表键只包含少量列表项，并且每个列表项要么是小整数值，要么是长度比较短的字符串，那么redis就会使用压缩列表来作为列表键的底层实现。压缩列表构成 struct ziplist<T>{ // 整个压缩列表占用字节数 int32 zlbytes; // 最后一个节点到压缩列表起始位置的偏移量，可以用来快速的定位到压缩列表中的最后一个元素，其中，字节数组可以是一下三种长度的其中一种：长度小于等于63（2^6-1）字节的字节数组长度小于等于16383（2^14-1）字节的字节数组长度小于等于4294967295（2^32-1）字节的字节数组压缩列表的从表尾向表头遍历操作就是使用这一原理实现的，只要我们拥有了一个指向某个节点起始地址的指针，程序就可以一直向前一个节点回溯，最终到达压缩列表的表头节点。压缩列表是一种为节约内存开发的顺序型数据结构。压缩列表被用作列表键和哈希键的底层实现之一。压缩列表可以包含多个节点，每个节点可以包含一个字节数组或整数值。
1.1K00发布于 2021-06-05
来自专栏算法进阶
6种神经网络的压缩方法
神经网络的压缩算法是，旨在将一个庞大而复杂的预训练模型（pre-trained model）转化为一个精简的小模型。按照压缩过程对网络结构的破坏程度，我们将模型压缩技术分为 “前端压缩” 和 “后端压缩” 两部分。前端压缩，是指在不改变原网络结构的压缩技术，主要包括知识蒸馏、轻量级网络（紧凑的模型结构设计）以及滤波器（filter）层面的剪枝（结构化剪枝）等；后端压缩，是指包括低秩近似、未加限制的剪枝（非结构化剪枝总结：前端压缩几乎不改变原有网络结构（仅仅只是在原模型基础上减少了网络的层数或者滤波器个数），后端压缩对网络结构有不可逆的大幅度改变，造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。剪枝操作对网络结构的破坏程度极小，将剪枝与其他后端压缩技术相结合，能够达到网络模型最大程度压缩，目前工业界有使用剪枝方法进行模型压缩的案例。
1.2K20编辑于 2023-08-28
来自专栏仁扬笔记
Redis的设计与实现(6)-压缩列表
_t 4 字节记录整个压缩列表占用的内存字节数: 在对压缩列表进行内存重分配, 或者计算 zlend 的位置时使用. zltail uint32_t 4 字节记录压缩列表表尾节点距离压缩列表的起始地址有多少字节 : 长度小于等于 63 (2^{6}-1)字节的字节数组; 长度小于等于 16383 (2^{14}-1) 字节的字节数组; 长度小于等于 4294967295 (2^{32}-1)字节的字节数组; 而整数值则可以是以下六种长度的其中一种压缩列表 API 函数作用算法复杂度 ziplistNew 创建一个新的压缩列表。 O(1) ziplistPush 创建一个包含给定值的新节点，并将这个新节点添加到压缩列表的表头或者表尾。总结压缩列表是一种为节约内存而开发的顺序型数据结构. 压缩列表被用作列表键和哈希键的底层实现之一. 压缩列表可以包含多个节点，每个节点可以保存一个字节数组或者整数值. 添加新节点到压缩列表, 或者从压缩列表中删除节点, 可能会引发连锁更新操作, 但这种操作出现的几率并不高.
45800编辑于 2023-06-27
来自专栏计算机视觉
6 种卷积神经网络压缩方法
按照压缩过程对网络结构的破环程度，我们将模型压缩技术分为“前端压缩”和“后端压缩”两部分。前端压缩：是指在不改变原网络结构的压缩技术，主要包括知识蒸馏、轻量级网络（紧凑的模型结构设计）以及滤波器（filter）层面的剪枝（结构化剪枝）等；后端压缩：是指包括低秩近似、未加限制的剪枝（非结构化剪枝总结：前端压缩几乎不改变原有网络结构（仅仅只是在原模型基础上减少了网络的层数或者滤波器个数），后端压缩对网络结构有不可逆的大幅度改变，造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。剪枝操作对网络结构的破坏程度极小，将剪枝与其他后端压缩技术相结合，能够达到网络模型最大程度压缩，目前工业界有使用剪枝方法进行模型压缩的案例。 6、浅层 / 轻量网络浅层网络：通过设计一个更浅（层数较少）结构更紧凑的网络来实现对复杂模型效果的逼近，但是浅层网络的表达能力很难与深层网络相匹敌。
38510编辑于 2024-03-19
来自专栏数据派THU
6种卷积神经网络压缩方法
神经网络的压缩算法是，旨在将一个庞大而复杂的预训练模型（pre-trained model）转化为一个精简的小模型。按照压缩过程对网络结构的破坏程度，我们将模型压缩技术分为 “前端压缩” 和 “后端压缩” 两部分。前端压缩，是指在不改变原网络结构的压缩技术，主要包括知识蒸馏、轻量级网络（紧凑的模型结构设计）以及滤波器（filter）层面的剪枝（结构化剪枝）等；后端压缩，是指包括低秩近似、未加限制的剪枝（非结构化剪枝总结：前端压缩几乎不改变原有网络结构（仅仅只是在原模型基础上减少了网络的层数或者滤波器个数），后端压缩对网络结构有不可逆的大幅度改变，造成原有深度学习库、甚至硬件设备不兼容改变之后的网络。剪枝操作对网络结构的破坏程度极小，将剪枝与其他后端压缩技术相结合，能够达到网络模型最大程度压缩，目前工业界有使用剪枝方法进行模型压缩的案例。
45310编辑于 2023-04-25
来自专栏机器学习与统计学
上下文工程比提示词工程更重要，6种上下文管理策略
这是一门科学，因为正确地做到这一点需要任务描述和解释、少量示例、检索增强（RAG）、相关（可能跨模态）数据、工具、状态和历史记录，以及信息的压缩……如果信息不足或形式不对，LLM 将无法获得最佳性能所需的正确背景通过文件系统读写包含大量 token 的上下文（参考：Manus[4]）。将文件用于存储长期记忆（参考：Ambient Agents course[5]/repo[6]）。在前缀后添加可变上下文 / 近期观察结果。总结：有得必有失，压缩过程中存在信息丢失的风险，这是一个问题。因此，更倾向于采用转移（上下文负担）的方式。多智能体之间存在协调问题，这也是一种风险。先回顾长上下文失效的四种模式： 上下文中毒，即幻觉或错误进入上下文并被反复引用； 上下文干扰，上下文过长使模型过度关注上下文而忽视训练内容； 上下文混淆，模型利用上下文中多余信息生成低质量回复； 上下文冲突 Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus [5] course: https://academy.langchain.com/courses/ambient-agents/ [6]
82610编辑于 2025-07-27
来自专栏javascript趣味编程
6 不可压缩牛顿流体流动
%parametersthat can be modified 4. nx=40;%number of points 5. ny=40; 6. xmin=0;xmax=1; %domain dimentions
91800发布于 2018-08-08
来自专栏Python数据科学
使用K-Means算法将图像压缩6倍！
此外，我们还将讨论如何使用K-Means来压缩图像。在深入研究K-Means算法的细节之前，让我们先了解一下无监督的机器学习是什么，以及它的实际应用是什么。使用K-Means进行图像压缩是时候测试我们对K-Means的知识并将其应用于解决现实生活中的问题了。我们将使用K-Means来执行图像压缩。最左边的图像描绘了实际图像。中间图像描绘了一个压缩图像，但剩下一点点分辨率。最右边的图像描绘了高度压缩和低分辨率的图像。压缩已经使用K-Means完成。考虑你有一个大小为128 X 128 X 3的图像。显然，我们将图像压缩了6倍！结果惊人！请记住，较高的K值意味着你不会大幅压缩图像，也就是说你将保留很多分辨率。但是，如果要选择较小的K值，则图像将被高度压缩，因此分辨率较低。
1.6K30发布于 2019-04-09
来自专栏Java知识图谱
Nginx网络压缩 CSS压缩图片压缩 JSON压缩
1、网络压缩原理网络压缩的原理是消耗CPU资源，减少文件在公网传输的大小，提高响应速度。二、网络压缩此部分所有的压缩内容在浏览器端都会还原，特别需要指出的是图片，图片在网络间是压缩状态传输的，到达浏览器后是会被还原的。技术实现依托gzip压缩，仅仅在服务器与客户端网络传输时对静态资源进程压缩，文件的大小在压缩前与还原后保持不变。图片压缩分为两类：一是等比压缩；二是固定宽高压缩。根据应用场景的不同也分为两类：一是固定参数；二是动态参数。此部分图片压缩后到达浏览器不会被还原。（一）等比压缩使用关键词resize实现等比压缩，指定宽度或者高度即可在原尺寸图片的基础上等比率压缩图片。如果同时指定宽度和高度，只有一个参数生效。
6.7K41编辑于 2022-02-08
来自专栏计算机视觉战队
量化新方法 | 模型压缩6倍，无需重训练
将参数x0从0到1，并将位数从2改为6。在表1和表2中收集了获得的结果，并在图3和图4中显示了它们。 ? ? ? ? ? 在上图中，给出了神经网络离散化的过程。应特别注意倒数第二排。 RUDN 大学的 Iakov Karandashev 补充说道：「量化之后，分类准确率仅降低了 1％，但是所需的存储容量减少了 6 倍。
92910发布于 2021-03-13
来自专栏自动化、性能测试
性能测试必备知识（6）- 如何查看“CPU 上下文切换”
without-mysql make && make install 百度云链接链接：https://pan.baidu.com/s/1a9qR9GNzEbj1rkDp2wXfIw 提取码：kone 下载压缩包放到服务器结果分析 cswch：每秒自愿上下文切换 nvcswch：每秒非自愿上下文切换的次数自愿上下文切换进程无法获取所需自愿，导致的上下文切换栗子：I/O、内存等系统资源不足时，就会发生非自愿上下文切换非自愿上下文切换，则是指进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换栗子：大量进程都在争抢 CPU 时，就容易发生非自愿上下文切换通过栗子去看上下文切换前期准备安装 sysbench 每秒上下文切换多少次才算正常？根据上下文切换的类型，具体分析自愿上下文切换多了，说明进程都在等待资源，有可能发生了 I/O 等其他问题非自愿上下文切换多了，说明进程都在被强制调度，也就是都在争抢 CPU，说明 CPU 的确成了瓶颈
3.2K10发布于 2020-07-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

.NET+AI | MEAI | 上下文压缩（7）

Confluence 6 启用 HTTP 压缩

什么是上下文压缩？如何减少Token消耗？

【从零手写 ClaudeCode：learn-claude-code 项目实战笔记】（6）Context Compact (上下文压缩)

85_多轮对话：上下文管理与压缩

DeepSeek-OCR：基于光学压缩的上下文处理

打包压缩加密备份_bash笔记6

Go在AI对话上下文压缩处理上的实践

从 ECMAScript 6 角度谈谈执行上下文

6、Redis数据结构——压缩列表-ziplist

6种神经网络的压缩方法

Redis的设计与实现(6)-压缩列表

6 种卷积神经网络压缩方法

6种卷积神经网络压缩方法

上下文工程比提示词工程更重要，6种上下文管理策略

6 不可压缩牛顿流体流动

使用K-Means算法将图像压缩6倍！

Nginx网络压缩 CSS压缩图片压缩 JSON压缩

量化新方法 | 模型压缩6倍，无需重训练

性能测试必备知识（6）- 如何查看“CPU 上下文切换”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

.NET+AI | MEAI | 上下文压缩（7）

Confluence 6 启用 HTTP 压缩

什么是上下文压缩？如何减少Token消耗？

【从零手写 ClaudeCode：learn-claude-code 项目实战笔记】（6）Context Compact (上下文压缩)

85_多轮对话：上下文管理与压缩

DeepSeek-OCR：基于光学压缩的上下文处理

打包压缩加密备份_bash笔记6

Go在AI对话上下文压缩处理上的实践

从 ECMAScript 6 角度谈谈执行上下文

6、Redis数据结构——压缩列表-ziplist

6种神经网络的压缩方法

Redis的设计与实现(6)-压缩列表

6 种 卷积神经网络压缩方法

6种卷积神经网络压缩方法

上下文工程比提示词工程更重要，6种上下文管理策略

6 不可压缩牛顿流体流动

使用K-Means算法将图像压缩6倍！

Nginx网络压缩 CSS压缩 图片压缩 JSON压缩

量化新方法 | 模型压缩6倍，无需重训练

性能测试必备知识（6）- 如何查看“CPU 上下文切换”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

6 种卷积神经网络压缩方法

Nginx网络压缩 CSS压缩图片压缩 JSON压缩