首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI SPPECH

    Token Runtime:成本控制与性能优化

    目录 1 引言:为什么Token管理是AI IDE的生命线 2 Token计数:文本到Token的映射与优化 2.1 Tokenization的数学原理 2.2 主流模型的Token计数差异 2.3 Token 计数器的工程实现 2.4 Token计数的精确度优化 2.5 Token计数与成本模型 3 使用量追踪:多维度统计体系设计 3.1 追踪架构设计 3.2 追踪数据模型 4 预算控制:多层次成本约束机制 2 Token计数:文本到Token的映射与优化 本节为你提供的核心技术价值:掌握主流模型的Token计数原理,理解不同编码方式的差异与优化策略 2.1 Tokenization的数学原理 Token是 线程安全:支持高并发场景 9.3 未来演进方向 智能化增强 基于强化学习的自适应压缩策略 更精准的任务复杂度预测 用户习惯学习与个性化路由 多模态扩展 图像Token的计量与优化 音视频内容的上下文管理 Runtime Complete - 完整代码请参见本文各章节实现") 关键词: Token Runtime, AI IDE, 成本控制, 性能优化, 预算管理, 上下文压缩, 缓存策略, 模型选择,

    24610编辑于 2026-05-27
  • 来自专栏养虾记

    优化 OpenClaw Heartbeat,大幅减少 Token 消耗

    ────────────────────┐│优化前的Token消耗结构│├──────────────────────────────────────────────────────────────── **如无异常→回复HEARTBEAT_OK**优化效果:字数:500字→50字Token:约800→约100节省:约87.5%4.3第三步:创建Cron任务4.3.1查看现有Cron任务展开代码语言:BashAI 08***每天8:00每周一早上08**1周一8:00每月1号001**每月1号0:00工作日(周一至周五)09**1-5工作日9:005.3使用--light-context进一步节省Token对于简单的 7.1Token消耗对比优化前(每日):项目次数单次Token总计TokenHeartbeat484,000192,000任务执行48包含在心跳中-总计--192,000优化后(每日):项目次数单次Token $1.92$0.26$1.66每月$57.60$7.80$49.80每年$691.20$93.60$597.607.3性能对比指标优化优化后提升心跳响应时间5-10秒1-2秒5x上下文长度5000+Token1800Token64%

    4.1K21编辑于 2026-03-24
  • 来自专栏我爱计算机视觉

    8token能学到什么?谷歌提出《TokenLearner》,用8token就可以达到优于数百个token的结果!

    关注公众号,发现CV技术之美 本篇文章分享论文『TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?』 ,谷歌提出《TokenLearner》,用 8token 就可以达到优于数百个 token 的结果! 更具体地说,对于图像,当插入8-16个token作为中间表示(而不是保留200∼500个)时,可以显著减少ViT的计算预算。 类似地,对于视频识别,本文在三个具有挑战性的数据集上显示了比最新技术更高的性能,同时每帧仅使用8-16个中间token。 对于TokenLearner,这些后续层只需要处理少量的token(例如,8而不是1024),这显著减少了计算量,因为它们与token数量成二次关系。

    1.2K20编辑于 2022-09-01
  • 来自专栏cwl_Java

    性能优化-Tomcat8优化

    1、Tomcat8优化 tomcat服务器在JavaEE项目中使用率非常高,所以在生产环境对tomcat的优化也变得非常重要了。 1.1 Tomcat配置优化 1.1.1、部署安装tomcat8 下载并安装: https://tomcat.apache.org/download-80.cgi ? 推荐使用nio,不过,在tomcat8中有最新的nio2,速度更快,建议使用nio2. 注意:这里在测试时,我们使用一个新的tomcat,进行测试,后面再对其进行优化调整,再测试。 1.5、调整JVM参数进行优化 接下来,测试通过jvm参数进行优化,为了测试一致性,依然将最大线程数设置为500, 启用nio2运行模式。

    1.7K20发布于 2020-02-13
  • Claude Code 省钱指南:Token 成本优化实战

    用了 Claude Code 一段时间,发现 Token 消耗量比你想象的要高?这篇文章帮你系统性地降低 Token 成本。 一、理解 Token 计费 1.1 输入 Token vs 输出 Token Claude 的计费区分输入和输出: Token 类型 说明 价格相对 输入 Token 发送给 Claude 的内容(你的消息 二、零成本优化:用好免费额度 2.1 识别高消耗场景 消耗 token 的「大户」: 场景 典型消耗 说明 读取大文件 10-100K+ 一次请求就消耗大量输入 token 长对话历史 累计增长 每轮对话都带上之前的内容 /context && /cost 知道钱花在哪,才能有针对性地优化。 3.2 CLAUDE.md 优化 CLAUDE.md 是缓存的「黄金地段」——每次请求都会带上,且位置靠前。

    23210编辑于 2026-06-15
  • Claude Code 省钱指南:Token 成本优化实战

    用了ClaudeCode一段时间,发现Token消耗量比你想象的要高?这篇文章帮你系统性地降低Token成本。 一、理解Token计费1.1输入Tokenvs输出TokenClaude的计费区分输入和输出:Token类型说明价格相对输入Token发送给Claude的内容(你的消息+文件+系统提示)较低输出TokenClaude 二、零成本优化:用好免费额度2.1识别高消耗场景消耗token的「大户」:场景典型消耗说明读取大文件10-100K+一次请求就消耗大量输入token长对话历史累计增长每轮对话都带上之前的内容反复读取相同文件浪费没有利用缓存输出生成高额输出 &&/cost知道钱花在哪,才能有针对性地优化。 3.2CLAUDE.md优化CLAUDE.md是缓存的「黄金地段」——每次请求都会带上,且位置靠前。

    1.6K12编辑于 2026-05-24
  • 来自专栏python3

    忘记token怎么加入k8s集群

    一、概述 新版本的k8s,初始化生成的token,只有24小时。 超过时间,就得需要重新生成token,为了避免这种情况,直接生成永久的token 二、操作步骤 1.生成一条永久有效的token kubeadm token create --ttl 0 查看token # kubeadm token list TOKEN                     TTL         EXPIRES                     USAGES                                         authentication,signing   <none>        system:bootstrappers:kubeadm:default-node-token 2cc3029123db737f234186636330e87b5510c173c669f513a9c0e0da395515b0 3.node节点加入 kubeadm join 10.167.11.153:6443 --token

    1.9K20发布于 2020-03-11
  • 多模态理解模型的Token消耗优化策略

    摘要: 多模态理解模型按Token消耗量计费,优化Token使用是控制成本的关键。 理解这些规律,是制定Token消耗优化策略的基础。 6.3 定期评估优化效果 Token消耗优化是一个持续的过程。 建议定期(如每月)对优化措施的效果进行评估,包括: 平均单次调用的Token消耗量是否下降 不同优化措施的实际降本效果 优化措施是否对理解准确性产生影响 基于定期评估的结果,持续调整和优化Token消耗策略 七、成本与效果的平衡 7.1 避免过度优化 Token消耗优化需要在成本和效果之间取得平衡。过度追求Token消耗的降低,可能会对理解准确性产生负面影响,反而导致业务质量的下降。

    11910编辑于 2026-06-18
  • 来自专栏全栈程序员必看

    tomcat8 JVM 优化

    如果服务器只运行一个 Tomcat: 机子内存如果是 8G,一般 PermSize 配置是主要保证系统能稳定起来就行: JAVA_OPTS="-Dfile.encoding=UTF-8 -server 2 -XX:+DisableExplicitGC" 机子内存如果是 16G,一般 PermSize 配置是主要保证系统能稳定起来就行: JAVA_OPTS="-Dfile.encoding=UTF-8 2 -XX:+DisableExplicitGC" 机子内存如果是 32G,一般 PermSize 配置是主要保证系统能稳定起来就行: JAVA_OPTS="-Dfile.encoding=UTF-8

    96211编辑于 2022-08-28
  • 来自专栏原创分享

    js引擎v8源码解析之token(基于0.1.5)

    #ifndef V8_TOKEN_H_ #define V8_TOKEN_H_ namespace v8 { namespace internal { // TOKEN_LIST takes a t precedence_[NUM_TOKENS]; }; } } // namespace v8::internal #endif // V8_TOKEN_H_ token.cc #include "v8.h" #include "token.h" namespace v8 { namespace internal { #ifdef DEBUG #define T(name, string , precedence) precedence, int8_t Token::precedence_[NUM_TOKENS] = { /* TOKEN_LIST宏展开后变成 (T, K, IGNORE_TOKEN) #undef K #undef T } } } // namespace v8::internal

    3.5K40发布于 2019-07-30
  • 来自专栏盛开在夏天的太阳

    8.k8s连载--重新生成k8s token(kubeadm join报错及解决)

    k8s Could not find a JWS signature in the cluster-info ConfigMap for token ID "vezzap" 这个错误的原因是没有token 解决方案: 重新生成 1)关于token失效, 重新生成   master集群初始化后,token24小时后就会失效,如果到了token失效时间,node再加入集群,需要重新生产token: ## 查看 token状态 ### TTL值 就是token生于时间 [root@k8s-master ~]# kubeadm token list TOKEN TTL EXPIRES USAGES DESCRIPTION generated by 'kubeadm init'. system:bootstrappers:kubeadm:default-node-token ## 重新生产token [root@k8s-master component configs for API groups [kubelet.config.k8s.io kubeproxy.config.k8s.io]   lb2hib.5kf3zjrzkp8e632w

    2.7K10发布于 2020-09-27
  • 来自专栏netservice

    k8s install dashboard创建账户token(docker for windows)

    docker for win10开启 k8s [k8s1.PNG] kubectl get service -n 1.下载所需yaml文件安装dashboard(可以直接下载文件) kubectl apply deploy/recommended.yaml 1.1修改 recommended.yaml kind: Service apiVersion: v1 metadata: labels: k8s-app =cluster-admin --serviceaccount=kube-system:dashboard-admin clusterrolebinding.rbac.authorization.k8s.io /service-account-token 3 11d clusterrole-aggregation-controller-token-9g52c kubernetes.io/service-account-token .kwc63q3UMlUlLxn8zIRdvpcwGbrw5-9eKmr8exDB1dFp1R2EZUZ0WdNW0v_TaGwoiBwXYuBOI5vMhB3cAOQ5ZrK_jddz27t5D4AqIhssmm103fp5Bo57R5ipICDrXMu6TQJMkGg0O7FiFd2HURNYMg-PwbWDuu3uLjct4HxnE06EEvJ1uxwMdjxuXhlTZs3sxleGLJKqySScYxtnc9N2EQm-sJsb4MiuBuzXCRLh6f9GiEiR-erx2guzgpqDCa6tX5tFEZv25awdbvFUtOVIwql8tl8rUWgSVNAsDJvWBhibk80hk4H0TtGInkteWSDSJfrlwzb-dgoI-ABK44ohbQ

    3.6K50编辑于 2022-03-29
  • 来自专栏容器化

    k8s踩坑记 - kubeadm join 之 token 失效

    抛砖引玉 环境 centos 7 amd64 两台 kubernetes 1.10 伴随着k8s1.10版本的发布,前天先在一台机器上搭建了k8s单机版集群,即既是master,也是node,按照经验, ,我又再一次相信了这个k8s的提示信息,然后开始修正bug了 ? ? ,于是开始顺藤摸瓜,排查第一个参数 token,执行命令 kubeadm token list: ? 修成正果,立地成佛 真是抛开云雾见天明,不容易啊,众里寻她千百度,原来她在灯火阑珊处。。。。。 于是乎,通过 kubeadm create token 重新创建了一个 token,然后,重新执行 kubeadm join,再次查看 kubectl get nodes: ? token create --ttl 0生成一个永不过期的 token,详情请参考:kubeadm-token,了解了原因才能够举一反三,带着思考学习k8s,才不会觉得乏味,希望把这个坑分享给大家,更希望把整个思考过程分享给大家

    2.5K50发布于 2018-06-13
  • 来自专栏从零开始学自动化测试

    jmeter压测学习8-压测带token的接口

    前言 工作中我们需要压测的接口大部分都是需要先登陆后,带着token的接口(或者带着cookies),我们可以先登陆获取token再关联到下个接口。 (token+","+username+"\n") 运行后生成的token_user.txt文件内容如下 f26be862c407a6fabf8fe3290ac21392b6eaf44f,test1 bed455954cb70f2060e17cf85339758cdcf94629 ,test2 033a47cb03e6d99384121d8a015fbe2542a198b5,test3 a09b5af04a06b274fece0a6766ed056be773294d,test4 test7 f3d7bc13d0608196d557f0197a7f2c2c407a7d0d,test8 9c6d7b893ea2e8b226daa0c315299d5968e8a10c,test9 4cfd0827e803a7415e987996c2148312843ed037 HTTP 信息头管理器引用token ? 请求参数引用user ? 运行结果 接下来就可以设置线程组愉快的压测了 ? 比如我设置2个线程,4次循环,这样会请求8次,每次都从测试文件里面循环取值 ? 2

    4.5K10发布于 2019-12-10
  • 来自专栏GiantPandaCV

    解析 Token to Token Vision Transformer

    最后看下T2T,通过Token to Token结构(下文会讲),它在浅层的时候也能建模出结构信息,同时也避免了极值的出现。 Token To Token结构 ? 这样会逐渐减少token的数量,但随之而来token的长度会增加很多(因为多个tokens连接在一个token),因此后续模型也降低了维度数目,以平衡计算量。 np np_input = np.array([[[[1, 2, 3], [4, 5, 6], [7, 8, unfolded) # 输出为 tensor([[[ 1., 2., 4., 5.], [ 2., 3., 5., 6.], [ 4., 5., 7., 8. ], [ 5., 6., 8., 9.], [10., 11., 13., 14.], [11., 12., 14., 15.],

    8.1K10发布于 2021-03-11
  • 来自专栏全栈程序员必看

    小米 token(token在哪里获取)

    小米设备token获取&HomeAssistant安装部署 小米智能设备token获取 miIO-discovery获取token与控制 app直接token获取 DB获取token 开源智能家居平台HomeAssistant 在使用这个局域网控制协议之前需要获取到设备token,接下来介绍小米设备获取token的一些方法。 utf8-*- import codecs import socket from protocol import Message helobytes = bytes.fromhex('21310020ffffffffffffffffffffffffffffffffffffffffffffffffffffffff :’,tok) 运行python3.5 miio_test.py,获取小米Wi-Fi插座token 执行控制脚本,输入插座的ip和token两个参数就可以看到现在插座的状态,在这两个参数的基础上添加 接下来还有一种方法可以直接从app获取token。以小米绿米网关为例,首先下载米家app,将绿米网关配置入网后,点击网关设备。接下来步骤如下组图,最后的密码即为网关的token

    10.7K10编辑于 2022-07-29
  • 来自专栏mathor

    枚举+优化8)——前缀和2

    至此,题目中70%的分数应该能拿到了,还有30%需要优化 优化优化的方法当然还是从枚举入手,我们假设只枚举q,也就是最后一段的断点。 所以对于一个合法的切分方案,S1的取值只可能是S3-1, S3, S3+1三种,也就是1,2,3  但是由于S1+S2+S3的和是整个数组的和,也就是8。所以S1的三种取值不见得都能成立。 比如S1=1这种情况,由于S3=2是确定的,所以S2一定等于8-1-2=5。这是S2与S3相差超过1,不符合题目要求。所以S1=1这种情况不成立。同理S1=2也是不成立的。 但是S1=3是成立的,因为这时S2的值是8-3-2=3。S2与S1和S3相差都不超过1  在S[1], S[2]和S[3]三个前缀和中,有几个的值是3。 S1=2是成立的,因为这时S2=8-2-3=3,{2, 3, 3}相差都不超过1。S1=3也是成立的,因为这时S2=8-3-3=2,{3, 2, 3}相差都不超过1。S1=4是不成立的。

    74050发布于 2018-06-12
  • 来自专栏小巫技术博客

    Android编译优化:D8和R8

    如果日常做Android开发的你不关注Google针对编译优化的话做的努力的话,会对D8和R8这两个名词会比较陌生。 ,这也是为什么Google会推出D8和R8编译器来优化编译速度。 R8 R8是用来替代Proguard的一个工具,是新一代的代码压缩工具。R8之前采用D8+Proguard的形式构建,R8则将混淆和D8工具进行整合,目的是加速构建时间和减少输出apk的大小。 ? Gradle插件版本达到3.4.0及以上,默认会开始R8进行代码优化。 : 减小DEX文件大小 优化代码: 进一步减小DEX文件大小 参考:https://developer.android.google.cn/studio/build/shrink-code R8 VS

    3.1K41发布于 2021-04-26
  • 来自专栏学弱猹的精品小屋

    数值优化8)——带约束优化:引入,梯度投影法

    上一节笔记:数值优化(7)——限制空间的优化算法:LBFGS,LSR1 ———————————————————————————————————— 大家好! 这一节我们会开辟一个全新的领域,我们会开始介绍带约束优化的相关内容。带约束优化在某些细节上会与之前的内容有所不同,但是主要的思路啥的都会和我们之前的传统方法一致,所以倒也不必担心。 那么我们开始吧。 在带了约束的情况下,我们的所有的优化步骤都必须局限在约束内。 事实上证明是类似的,和我们上面一样的写法可以得到 Proposition 8: 设 为驻点,那么如果 ,则偏导为0,若 ,则偏导非负,若 ,则偏导非正。 对于arc形式的,要求也是差不多的 Definition 8: Arc Armijo Condition 设 ,那么如果 是最小的使得 且使得 成立,那么称 满足弧情况下的Armijo条件。

    2.9K10发布于 2021-08-09
  • 来自专栏GiantPandaCV

    原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化

    假设每轮生成512个token,只需要对话8轮,就达到4K长度。因此,如果模型服务具备prefix caching功能,将能极大地降低首Token的时延,提升用户体验。 Only Prefix KV Caching (2)Prefix + Generated KV Caching的优化,多轮对话分析。 Baburaj||\n|F E B|20|8|Vanadevatha|Prem Nazir, Madhubala|Yusufali Kechery|G. m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen1.5-72B-Chat \ --tensor-parallel-size 8 Prefix Caching的优化思路,并非只有SGLang RadixAttention以及vLLM中的实现。

    15K32编辑于 2024-06-04
领券