搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

OpenClaw + 离线 Gemma 4：省Token，保隐私
题图摄于奥林匹克公园南门（今天写篇短的笔记）智能体应用要烧 Token，大家都已经达成共识。自从 Gemma 4 发布后，“平民版”的方案成为了可能。大家的想法很一致——就是想省点 Token 钱。答案是：完全可以。今天快速记录一下部署过程，给大家当个“菜谱”参考。文中用的是 Ollama，适合测试玩一玩。
57820编辑于 2026-04-13
你的token钱包还好吗？传授你一本省token大法
但爽归爽，看着后台token账单蹭蹭涨，钱包属实有点扛不住：-长对话、多轮迭代、大文件投喂，每一下都是真金白银。别慌！我整理了最实用的省token技巧。提问精简，把减少token输入融入日常习惯从源头掐住Token浪费（最易上手，立省30%+）token消耗的大头，往往藏在无效输入里——废话太多、指令模糊、重复信息，AI读着累，你钱包更累。先把提问逻辑捋顺，省Token第一步就稳了。1.删“废话”，只留核心指令AI不需要礼貌用语、情绪铺垫、冗余修饰，指令越短、信息越密，越省Token。长对话必看，省50%+龙虾的长上下文是优势，但每轮对话都会携带全部历史，聊得越久，Token消耗越夸张。以下仅展示ADP上部分模型token价格总结：省token核心所有技巧都围绕一个核心：降每次输入长度，降每次token单价。
41910编辑于 2026-03-26
来自专栏程序员分享
Agent记忆模块：让大模型“记住”你，还能省Token！
Agent记忆模块：让大模型“记住”你，还能省Token！这样既保留关键信息，又大幅减少 Token。LangChain 支持自动触发总结（比如当 Token 使用率达 80% 时），也可以手动触发命令如 /compact。五、高级技巧：智能管理 Token好的 Agent 会动态监控 Token 消耗：ini 体验AI代码助手代码解读复制代码import { getEncoding } from 'js-tiktoken (fullPrompt).length;if (tokens / contextWindow > 0.8) { // 自动触发总结或截断}开发者甚至可以提供命令：/clear：清空记忆，开启新任务（省 Token！）
1.1K10编辑于 2026-03-18
来自专栏前端工程
OpenClaw 2.6 调教实录：从崩溃 4671 次到省 50% token
① contextPruning：自动裁剪旧内容，省 token "contextPruning": { "mode": "cache-ttl", "ttl": "5m" } Before：每次对话把所有历史 tool 输出都带上，token 越聊越多。这一项大概能省 20-30% 的 token。注意：这只影响发给 LLM 的上下文，不会删除磁盘上的 session 历史（.jsonl 文件保持完整）。省 token，也省你等3次回复的时间。 04 进阶：用 QMD 替代默认记忆搜索做完基础体检，我又研究了一个社区里很多人在用的省 token 方案：QMD。
5.4K13编辑于 2026-02-10
Hermes Agent 三大进阶玩法：免费模型 + 美化界面 + 省 Token
HermesAgent三大进阶玩法：免费模型+美化界面+省Token从快速跑通，到把交互体验和成本结构一起调顺，这篇文章把HermesAgent三条最实用的进阶路线讲清楚。方案三：主模型负责质量，辅助模型负责省钱这套玩法到底在省什么很多人开始算Hermes成本时，第一反应是换一个更便宜的主模型。
2.7K41编辑于 2026-04-27
来自专栏机器之心
Meta这招省token又提效
随着 AI 的不断发展，现如今的一个重要挑战是如何获得足够多高质量的 token。又或者，该如何更高效地利用这些 token？为此，还必须对 Transformer 进行进一步的升级改造。这引出了 Hoffmann 等人 (2022) 的核心论点：必须根据模型大小按比例缩放 token 数量。如此，便引出了 Hoffmann et al. (2022) 的一个核心论点：必须根据模型大小按比例扩展 token 数量。但是，正如前面讨论的那样，足够高质量且足够数量的 token 是预训练扩展的新瓶颈，因此需要探索替代的训练算法和架构。然后，token i 的输出是值向量的加权和，如公式 7 所示。
26710编辑于 2025-07-08
腾讯这项省Token技术，成为全球主流推理框架官方方案
当前主流模型基于Transformer架构，每生成一个新Token，都需要依赖之前的上下文信息。为了避免每次都从头计算，这些中间结果必须被缓存下来——这就是 KV Cache。在极端情况下，这种重复计算会让单位Token成本提升2–3倍，峰值甚至达到3.5倍。这个端到端的协同闭环，从源头减少冗余计算，在典型业务场景下显著压缩首Token延迟，并提升整体吞吐能力。以上，是FlexKV面对浩瀚的大模型世界所做的一点工作。
35710编辑于 2026-04-14
用不到 1 亿 token 的高薪工程师，正在错过什么？“省Token”反而是在浪费钱？
他说：高薪软件工程师如果还没有把大量的 AI token 用起来，反而应该感到紧张。为了说明这个问题，他做了一个极其精准的类比。别为了省“电费”，浪费了“时薪” 我们来看看现在的行业现状。很多团队或者工程师个人，在拥抱 AI 编程时，经常陷入一个误区：过度计较 Token 的成本。为了省一点 API 调用的费用，限制使用最聪明的模型（比如 Claude Opus 4.6 或 GPT-5.4），转而用一些能力勉强的开源小模型；或者在让 AI 干活时，总是小心翼翼，生怕一不小心跑出几块钱的账单为了省这几毛钱的算力成本（Token），让高薪工程师去花几个小时手动排查 Bug、手敲样板代码，这绝对是“捡了芝麻丢了西瓜”。省下的是微不足道的服务器电费，浪费的是极其昂贵的工程师时间。在新的时代，不会用大量 Token 构建自动化工作流的工程师，就像今天坚持用纸笔画芯片的人一样，正在不知不觉中被边缘化。
10110编辑于 2026-03-30
这个给OpenClaw省Token的路子太野了！
如果直接用 GPT-5.4 跑，Token 的消耗速度确实惊人。特别是当 Agent 开始处理复杂任务、挂载知识库或者进行多轮对话时，API 账单往往会超出预期。（别被吓到，实际某平台买的便宜的GPT5.4）省 Token 的本质，不是抠门，而是为了让 AI 更可持续地为我们打工。经过这段时间的实战摸索，我总结了 4 个降本技巧。养成使用它们的习惯，可以有效控制 Token 消耗，还能避免 AI 因为上下文过长而变笨。 1. /status 查状态这是很多新手不知道的仪表盘指令。这听起来很离谱：你让一个靠 Token 活着的 AI，去砍掉自己的 Token？但结果出乎意料的好。
22910编辑于 2026-04-23
省80%Token！用这个神器给 Claude Code 装上超级记忆大脑
今日分享Claude Code辅助神器日常用Claude Code写代码，最怕遇到会话中断的情况——前一天刚讲清的项目结构、踩过的坑，第二天重开窗口就全部归零，只能重复输入上下文，既耗Token又费时间它不会把整段旧对话塞回新会话，而是将历史操作、关键信息、阶段总结提炼成可检索的记忆索引，新会话中按需调取细节，从根源上减少Token的无效消耗。 ●传统方式vsclaude-mem：Token消耗与工作效率对比对比维度传统使用Claude Code 使用claude-mem增强后上下文处理整段粘贴旧对话，重复消耗Token 提取记忆索引具体地址见安装后提示）页面中可按时间线查看所有历史会话的记忆，支持关键词检索可对记忆内容进行筛选、编辑，隐藏无用信息，让记忆索引更精简支持将选定的记忆内容导出，方便在多设备间同步功能亮点：不止省Token 对于日常将Claude Code作为主力开发工具的人员来说，按照上述步骤安装使用后，能明显感受到Token消耗的减少和开发效率的提升。
1.1K10编辑于 2026-04-17
来自专栏云开发
都说上云省，到底怎么省？
省新老行业初创业务持续成长省：迁移成本创立一年的晓餐冻品网是一家提供冻品配送的供应链平台。省：启动成本主营二次元衍生品的潮办科技，自2020年初创办“有尺物”小程序以来，一直使用微信云开发作为后端服务，从初期仅有1名前端研发，到现在成立几十人的研发团队，潮办对云开发的初心始终不变。省：运营成本瑞平健康是一家数字医疗行业的创业公司，旗下小程序作为连接患者和医疗专家的窗口，拥有稳定的用户客群和不俗的增长速度，为了应对快速增长的业务规模，团队需要配备更高的带宽、数据库，这在业务闲置时产生了资源浪费
1.3K30编辑于 2022-03-07
来自专栏GiantPandaCV
解析 Token to Token Vision Transformer
最后看下T2T，通过Token to Token结构（下文会讲），它在浅层的时候也能建模出结构信息，同时也避免了极值的出现。 Token To Token结构 ? 而T2T为了捕捉局部信息，它将所有的token通过reshape操作，恢复成二维，然后利用一个unfold一个划窗操作，属于一个窗口的tokens，会连接成一个更长的token，然后送入到Transformer 这样会逐渐减少token的数量，但随之而来token的长度会增加很多（因为多个tokens连接在一个token），因此后续模型也降低了维度数目，以平衡计算量。整体架构 T2T架构如上图所示，先经过2次Tokens to Token操作，最后给token加入用于图像分类的cls token，并给上位置编码（position embedding)，送入到Backbone 结构对比代码解读 Token Transformer class Token_transformer(nn.Module): def __init__(self, dim, in_dim,
8K10发布于 2021-03-11
来自专栏全栈程序员必看
小米 token(token在哪里获取)
小米设备token获取&HomeAssistant安装部署小米智能设备token获取 miIO-discovery获取token与控制 app直接token获取 DB获取token 开源智能家居平台HomeAssistant 在使用这个局域网控制协议之前需要获取到设备token，接下来介绍小米设备获取token的一些方法。 :’,tok) 运行python3.5 miio_test.py，获取小米Wi-Fi插座token 执行控制脚本，输入插座的ip和token两个参数就可以看到现在插座的状态，在这两个参数的基础上添加接下来还有一种方法可以直接从app获取token。以小米绿米网关为例，首先下载米家app，将绿米网关配置入网后，点击网关设备。接下来步骤如下组图，最后的密码即为网关的token。目前绿米的这种设计模式是最方便用户的，而且设备的所有者还可以选择是否开放局域网控制以及刷新控制token的有效性，个人还是很希望小米的其他设备同样开放app侧获取设备token，因为毕竟获取需要搭建复杂的环境以及调试代码
10.3K10编辑于 2022-07-29
来自专栏翩翩白衣少年
超 3 万人收藏的零成本、省 Token 的 Claude Code 持久化记忆插件！
而且，它还免费，还能帮你省 Token 钱！直接冲上了 GitHub Trending 热榜。相当于让Claude自己给自己写“会议纪要”，把1万Token的工具调用记录凝练成500Token的“知识晶体”。只获取筛选后的完整观察记录 • 只在真正需要时才获取 • Token 消耗：500–1,000 / 结果 • 深入细节这种方式既节省 Token，又不会在需要时显得"浅薄"。常规使用下能节省 90% Token，测试阶段的"无尽模式"更是能把 Token 消耗砍掉 95%，工具调用次数上限直接拉高 20 倍。三层渐进式披露、AI自动压缩、本地向量检索...一系列技术组合拳打下来，既保住了上下文连续性，又守住了Token钱包。更重要的是，Claude-Mem本身100%免费，还能帮你省Token钱。
1.8K10编辑于 2026-03-16
来自专栏五分钟学算法
查表得省一！
空间、时间都是 O(1) 级别，打表法 YYDS，比赛必备的神器，想在比赛中得奖，还真得用这种技巧。
71920编辑于 2022-04-08
腾讯云Token Plan深度解析：39元起畅用OpenClaw，比API按量计费省80%的秘密
AI领域的Token消费也是一样。绝大多数开发者还在用"零售"模式——按量计费，每个Token都算钱。而腾讯云推出的TokenPlan，就是"批发"模式，让你用远低于市价的成本，获得充足的Token配额。一、TokenPlan是什么？ TokenPlan是腾讯云专为AI助手（龙虾/Agent）和AI编程场景设计的Token套餐计划。一句话总结：预付一笔固定费用，获得大量Token配额，在多个AI工具中通用，用完为止，不超支。二、4档套餐详解套餐Token配额价格单价（元/百万Token）适合谁可用轮次Lite体验版3,500万39元1.11首次体验/偶尔使用≈70轮Standard基础版1亿99元0.99轻度使用/学生≈200 三、与按量计费的成本对比我们以一个中等强度使用场景为例：每天使用OpenClaw约2小时，日均消耗约1000万Token，月消耗约3亿Token。
9.9K20编辑于 2026-03-27
来自专栏全栈程序员必看
token身份认证机制(token怎么获取)
这个token 我不保存，当小F把这个token 给我发过来的时候，我再用同样的HMAC-SHA256 算法和同样的密钥，对数据再计算一次签名，和token 中的签名做个比较，如果相同，我就知道小客户端储存 token, 并且每次请求都会附带它。服务端验证 token 并返回数据。每一次请求都需要Token。Token 应该在 HTTP的头部发送从而保证了 Http 请求无状态。校验成功则返回请求数据，校验失败则返回错误码当我们在程序中认证了信息并取得 token 之后，我们便能通过这个 token 做许多的事情。使用 token 完美解决了此问题。（2）安全性请求中发送 token 而不是 cookie，这能够防止 CSRF(跨站请求伪造) 攻击。我们也不一定需要等到token自动失效，token有撤回的操作，通过 token revocataion可以使一个特定的 token 或是一组有相同认证的 token 无效。
7K10编辑于 2022-07-29
来自专栏码农二狗
省赛总结
此次省赛是acm生涯中的最后一次比赛了,虽然拿到三等奖,但是如果不是策略上的问题是可以拿下二等奖的,略遗憾,在此做下总结: Problem A: 这道题是道水题,但是需要注意每个人的工作效率都是一样的
53940发布于 2018-06-29
来自专栏全栈程序员必看
无效的token怎么解决_登录token
大家好，又见面了，我是你们的朋友全栈君解决无效token的方法在调用API接口时遇到了无效token的问题，网上搜了一大圈还以为是token时效的问题，最后发现是给需要授权的 API ，必须在请求头中使用Authorization 字段提供 token 令牌。 // 在最后必须return return config }) 然后在请求头中可以发现Authorization的值还是Null,原因就是当你发送的发出的是登录请求，在登录期间服务器没有给你token ，如果登录之后调用其他接口再去监听这次请求的话就会发现Authorization的值不在是null了,而是登录后的token。根据授权（Authorization）的解释，之所以要这么做的原因就是要给token授权访问api接口的权限。版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
4.4K40编辑于 2022-09-30
来自专栏陈琛的Redis文章
Token验证
唠嗑结束了，我们得来学习新知识，今天写的是如何解决登录问题及token验证。解决方案（Token）流程使用token验证来解决，那token验证是咋样的一个流程呢？ 3.后台有一个默认的拦截器，在接收到前端的请求时，会先将前端的token值取出，并且和redis中的token值进行对比。 token如何产生下图是一个完整的token值，我们可以看到他有两个点号，也就是将一个长字符串分割为三份。 ? 这三部分组成一个token的字符串。部分代码块下图为第二部分，token中应该存入的业务信息。 ?
2.6K21发布于 2020-06-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

OpenClaw + 离线 Gemma 4：省Token，保隐私

你的token钱包还好吗？传授你一本省token大法

Agent记忆模块：让大模型“记住”你，还能省Token！

OpenClaw 2.6 调教实录：从崩溃 4671 次到省 50% token

Hermes Agent 三大进阶玩法：免费模型 + 美化界面 + 省 Token

Meta这招省token又提效

腾讯这项省Token技术，成为全球主流推理框架官方方案

用不到 1 亿 token 的高薪工程师，正在错过什么？“省Token”反而是在浪费钱？

这个给OpenClaw省Token的路子太野了！

省80%Token！用这个神器给 Claude Code 装上超级记忆大脑

都说上云省，到底怎么省？

解析 Token to Token Vision Transformer

小米 token(token在哪里获取)

超 3 万人收藏的零成本、省 Token 的 Claude Code 持久化记忆插件！

查表得省一！

腾讯云Token Plan深度解析：39元起畅用OpenClaw，比API按量计费省80%的秘密

token身份认证机制(token怎么获取)

省赛总结

无效的token怎么解决_登录token

Token验证

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐