首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    大模型应用:本地大模型部署中的Token效率优化与性能分析.9

    随着模型规模的不断扩大和应用场景的多样化,如何在不牺牲对话质量的前提下优化Token使用效率,已成为提升大模型应用经济性和实用性的关键问题。 | 输出: {result['output_tokens']:4} | 总计: {total_tokens:4}")analyze_token_patterns()输出详细过程和结果:测试类型: 短问答 AI技术不仅提高了工作效率和生活质量,也为解决复杂的社会问题提供了新的工具。 优化策略层Prompt优化:精简指令,减少冗余Token长度控制:动态调整生成长度参数批处理优化:提高批量请求处理效率上下文压缩:智能管理长对话历史4. ,确保系统在不同硬件环境下的可用性通过持续的技术迭代和优化,我们相信Token效率优化将在推动大语言模型普惠应用方面发挥越来越重要的作用。

    52943编辑于 2026-02-06
  • 来自专栏DeepHub IMBA

    CALM自编码器:用连续向量替代离散token,生成效率提升4

    过去这些年语言模型的效率优化基本围绕着两条主线展开:参数规模和注意力机制的复杂度。但有个更根本的问题一直被忽视,那就是自回归生成本身的代价。 token本身已经是词汇表规模和表达能力之间比较精妙的平衡了,想在这个基础上再优化并不简单。 词汇表示的粒度选择 主流语言模型的词汇表通常在3万到25万个token之间。 本来就贵的自回归循环直接翻4到5倍。 子词token正好卡在中间这个位置。语义信息足够丰富,词汇表又不会大到装不下。transformer普及这么多年,分词方式基本没变过,原因就在这儿。 专用嵌入层 自编码器学自己的token嵌入——任务性质(联合k-token压缩/重建)跟自回归的下一token预测不同,优化的是「批量共现」模式而非「逐步递进」的几何关系。 当K = 4时(一个向量代表4token),CALM达到了与强离散基线相当的性能,但计算成本显著更低。 随着K增加所需计算量按比例减少,并且性能只有轻微下降。

    18210编辑于 2025-12-30
  • 来自专栏python3

    优化python执行效率

    开始优化前,写一个高级测试来证明原来代码很慢。你可能需要采用一些最小值数据集来复现它足够慢。通常一两个显示运行时秒的程序就足够处理一些改进的地方了。 有一些基础测试来保证你的优化没有改变原有代码的行为也是很必要的。你也能够在很多次运行测试来优化代码的时候稍微修改这些测试的基准。 那么现在,我们来来看看优化工具把。 内建优化器 启用内建的优化器就像是用一门大炮。它非常强大,但是有点不太好用,使用和解释起来比较复杂。 你也可以用如下的方法: 1.忍受缓慢或者缓存它们 2.重新思考整个实现 3.更多使用优化的数据结构 4.写一个C扩展 注意了,优化代码是种罪恶的快感! 先把它缓存起来再进行优化其实更好。

    86220发布于 2020-01-13
  • 来自专栏养虾记

    优化 OpenClaw Heartbeat,大幅减少 Token 消耗

    :指标数值心跳频率每30分钟每日心跳次数48次HEARTBEAT.md长度约500字单次心跳Token约3000-4000每日Token消耗约150,000-200,000月度Token消耗约4,500,000 大小:取决于文件长度,通常500-2000Token3.历史记录(ContextHistory)之前的对话历史,包括:用户输入AI回复工具调用结果大小:随着会话增长,可能达到2000-5000Token4 -8ea5-edf4bd5fd42eclawhub-skill-analyzercron0*/6***@Asia/Shanghaiin2h4hagookisolated--可以看到已经有两个任务在运行: 7.1Token消耗对比优化前(每日):项目次数单次Token总计TokenHeartbeat484,000192,000任务执行48包含在心跳中-总计--192,000优化后(每日):项目次数单次Token $1.92$0.26$1.66每月$57.60$7.80$49.80每年$691.20$93.60$597.607.3性能对比指标优化优化后提升心跳响应时间5-10秒1-2秒5x上下文长度5000+Token1800Token64%

    2.3K21编辑于 2026-03-24
  • 来自专栏国产程序员

    Pig4Cloud之检验token

    if(validatenull(token) || validatenull(basicAuth)){ return; } request({ url: '/auth/token/check_token 请求资源服务器的资源时,Spring Security 拦截token,进行token 和 userdetails 匹配过程,把无状态的token 转化成具体用户! 解析 header 或者参数中的 access_token 字段! `PigRedisOAuth2AuthorizationService` 通过token value 查询 认证中心下发令牌时 存储的用户认证信息.! , @Nullable OAuth2TokenType tokenType) { Assert.hasText(token, "token cannot be empty");

    72430编辑于 2022-12-07
  • 来自专栏Coco的专栏

    前端构建效率优化之路

    FE 项目,在随着项目体量不断增大的过程中,对整体的打包构建效率优化之路。 基于上述的一些分析,本文将从如下几个方面探讨对构建效率优化的探索: 基于 Webpack 的一些常见传统优化方式 分模块构建 基于 Vite 的构建工具切换 基于 Es-build 插件的构建效率优化 如果不替换掉 Webpack 本身,语言本身(NodeJS)的执行效率是没法优化的,只能在其他几个点做文章。 因此在最早期,我们所做的都是一些比较常规的优化手段,这里简单介绍最为核心的几个: 缓存 多进程 寻址优化 缓存优化 其实对于 vue-cli 4 而言,已经内置了一些缓存操作,譬如上图可见到 loader ,上述优化完成后,对整个项目的打包构建效率是有着一个比较大的提升的,但是这并非已经做到了最好。

    1.5K20编辑于 2022-09-19
  • 来自专栏Linux运维

    SQL 优化优化 SQL 语句,提高查询效率

    无论是OLTP业务高并发写入,还是OLAP场景的大规模查询分析,SQL优化都是工程师必须掌握的核心能力。本文从原理到实践,系统讲解SQL优化的关键方法,帮助你在实际项目中显著提升查询效率。 一、SQL优化的核心思路SQL优化的本质是:减少扫描、减少计算、减少数据量、减少等待。 优化方式:使用索引字段排序避免对大表直接排序使用覆盖索引减少回表必要时使用临时表提前过滤四、执行计划分析(EXPLAIN)SQL优化必须依赖执行计划。 常见选择:OLTP:READCOMMITTED金融类强一致:REPEATABLEREAD或SERIALIZABLE六、缓存与分库分表当SQL优化到极限后,需要从架构层面优化。 :建组合索引(user_id,create_time)查询变为覆盖索引排序在索引中完成优化后耗时:5秒→20毫秒结语SQL优化不是单点技巧,而是一套系统方法:索引设计→SQL写法→执行计划分析→架构优化

    48410编辑于 2026-01-13
  • 来自专栏C# 编程

    SQLite执行效率优化结论

    4)不能每次执行一条SQL语句前开始事务并在SQL语句执行之后提交事务,这样的执行效率同样是很慢,最好的情况下,是在开始事务后批量执行SQL语句,再提交事务,这样的效率是最高的。

    1.5K30发布于 2019-05-24
  • 来自专栏AI

    AI模型的效率优化

    AI模型的效率优化:量化与模型压缩技术随着人工智能(AI)技术的快速发展,AI模型的应用范围不断扩大,尤其是在计算资源有限的设备上,如移动设备、物联网(IoT)设备以及边缘计算环境中,AI模型的计算效率和存储需求变得至关重要 为了确保这些模型能够在资源受限的环境中高效运行,模型的效率优化成为了研究和应用的关键问题。AI模型的效率优化主要集中在两个方面:模型量化和模型压缩。 量化的挑战尽管量化能够显著提高模型的效率,但其也面临着精度损失的问题。为了避免精度损失,研究者提出了一些方法来优化量化过程。 4. 总结AI模型的效率优化技术,尤其是量化与模型压缩,是在计算资源有限的环境中部署高效AI应用的核心手段。量化通过减少模型参数的存储位数,能够显著提高推理速度并降低存储需求。

    92500编辑于 2025-02-04
  • 来自专栏腾讯云数据库专家服务

    MySQL案例:count(*)效率优化

    前言 阅读过上一篇文章的童鞋应该都知道,用count(1)替换count(*),并不能起到优化作用,两者的执行效率是一样的。那么,count(*)应该如何优化呢?让我们继续往下看。 那么为什么MySQL要从扫描聚集索引优化成扫描二级索引呢? 表而言,主键即数据;聚集索引的叶子节点存放的是完整行记录,而二级索引的叶子节点存放的只是索引列+主键,因此二级索引要比聚集索引小,扫描成本会更低;而且,二级索引key_len越小,扫描成本就越低,执行效率就越高 ;聚集索引最慢 索引 key_len 物理读 耗时 primary 4 4446672 105 k_1 4 268992 6 idx_c 480 2626768 62 idx_pad 240 1406704 更新; (2)如果对于count(*)准确性要求高,只能从MySQL数据库获取,可以考虑为对应表key_len较小的列建立二级索引,以优化count(*)执行效率

    6.4K112发布于 2020-10-26
  • 来自专栏FSociety

    SQL中查询效率优化

    当我们使用索引和不使用索引的时候,效率会相差相当大,特别是当数据量越来越大的时候。 TOP NUM> <SELECT LIST> (1)FROM [LEFT_TABLE] (3)<JOIN_TYPE> JOIN <RIGHT_TABLE> (2)ON <JOIN_CONDITION> (4) FROM多个表的时候将小表写在后面,在CBO优化器情况下默认是将后表当成驱动表的。 ---- 写SQL简单,优化SQL难,数据分析师之路长的很,慢慢走~ peace~

    3.4K30发布于 2018-09-11
  • 来自专栏全栈程序员必看

    androidstudio 优化gradle编译效率

    有时做少量改动编译须要等待时间过长,近期Erik Hellman编写的Boosting the performance for Gradle in your Android projects( 译文 參考1)提到了此问题的优化方法 2.4做了在编译性能方面做了不少优化,提高编译效率

    48810编辑于 2022-07-07
  • OpenClaw + 离线 Gemma 4:省Token,保隐私

    题图摄于奥林匹克公园南门 (今天写篇短的笔记) 智能体应用要烧 Token,大家都已经达成共识。自从 Gemma 4 发布后,“平民版”的方案成为了可能。 之前文章介绍过谷歌 Gemma 4,最大的优点是不挑食——低端设备也能跑,就像一辆加 92 号汽油就能跑的小货车,不用非得喂 98 号油。 而 Gemma 4 就亲民多了,部署成本低,还能把数据锁在自己家里,对智能体应用来说,真的挺香。 不少读者后台问我:能不能用OpenClaw(龙虾)接上离线的 Gemma 4? 大家的想法很一致——就是想省点 Token 钱。答案是:完全可以。 今天快速记录一下部署过程,给大家当个“菜谱”参考。文中用的是 Ollama,适合测试玩一玩。 模型跑起来之后,OpenClaw 这边要配置 Gemma 4 大模型。

    35120编辑于 2026-04-13
  • 来自专栏晓晨的专栏

    IdentityServer4实战 - JWT Token Issuer 详解

    本文所诉Token如无特殊说明皆为 JWT Token。 3.Issuer 可以自定义,并且可以设置一个列表,如果手动设置了会覆盖默认值 4.Issuer 验证逻辑默认只验证是否相等,即 Token 携带的 Issuer 是否与 设置的 Issuer 值相等。 设置 Token 的 Issuer 需要在 IdentityServer4 设置。 2.对Token解码,查看 iss 字段 如果在 IdentityServer4 设置此值,默认情况下所有API资源都会获取此值作为默认有效Issuer。 ,如果直接通过外网请求的 Token Endpoint(/connect/token) 生成的 Token,那么这个 Token 携带的 iss 地址将会是外网地址(正常情况下,Host是会经过代理传过来的

    2.4K21发布于 2019-03-05
  • 来自专栏未来先知

    创新之举:不丢 Token,大语言模型效率提升 35% !

    这带来了两个挑战: 1)一个Token要关注哪些重要的Token,重要Token的分布在哪里? 2)如何优化不那么重要的Token的内存和计算。 为了实现这一目标,作者提出了PoD(近端Token优化远程Token)方法,在解码阶段优化推理效率。 如图4-(b)所示,随着最近邻Tokens数量的增加,PoD的性能稳步提升。当Token计数达到4K时,使用2B数据进行训练的性能可以接受,与LLaMA3-8B-32K阶段相当。 此外,还有一些方法通过直接压缩输入Prompt的长度来提高效率。本工作与这些方法相互独立,并主要集中在优化解码阶段。 使用了50亿条数据进行训练。 在平衡性能和效率之后,作者最终选择了使用4096个近邻Token。 关于模型性能与KV缓存节省之间的关系,图4-c显示,随着节省率的增加,性能会下降。

    78610编辑于 2025-02-12
  • 来自专栏猫头虎博客专区

    使用ChatGPT-4优化编程效率:高效查询代码示例和解决方案

    欢迎大家来踩踩~ 《IDEA开发秘籍专栏》学会IDEA常用操作,工作效率翻倍~ 《100天精通Golang(基础入门篇)》学会Golang语言,畅玩云原生,走遍大小厂~ 希望本文能够给您带来一定的帮助文章粗浅 使用ChatGPT-4优化编程效率:高效查询代码示例和解决方案 摘要 在当今软件开发领域,人工智能技术正逐渐渗透到各个方面,为程序员们提供了更多的工具和资源来提高工作效率优化后的代码案例: package main import ( "fmt" "image" "image/color" "image/png" "os" "sync" ) func Convolve 如何使用Webpack优化前端资源? 在Redux中,如何创建一个动作创建者? 如何在Express.js中设置路由? 在Haskell中,如何实现一个映射函数? 在MySQL中,如何优化查询性能? 如何使用Maven来构建Java项目? 在R中,如何实现线性回归? 怎样在VBA中从Excel读取数据? 请展示如何在ASP.NET MVC中实现CRUD操作。

    77910编辑于 2024-04-09
  • 来自专栏媒矿工厂

    优化 Facebook 视频的存储效率

    这意味着我们需要: 更高效的硬件 更多的加速器, 更多的软件优化,如视频生命周期管理或视频存储策略 FB 视频存储策略 下面将介绍 Facebook 是如何管理它的视频存储的。 我们可以用效益成本评估器来代替生命周期冲突中管理编码的静态规则,回想一下前面的重新压缩编码操作会带来计算机成本,我们还需要在存储和质量之间进行权衡,这是一个适合效益成本评估的情况,这样我们就有了编码管理的第三个选择,这将帮助我们实现更好的视频存储效率 最后附上演讲视频: http://mpvideo.qpic.cn/0b2e2qaaeaaajuabyxfhqzqvbvgdalkaaaqa.f10002.mp4?

    1.7K30发布于 2021-12-02
  • 来自专栏Java编程指南

    IDEA 配置优化 提高开发效率

    DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

    1.1K20发布于 2019-08-02
  • 来自专栏Java帮帮-微信公众号-技术文章全总结

    Java代码效率优化【面试+提高】

    JAVA代码效率优化 最近在想自己编程时是否注意过代码的效率问题,得出的答案是:没有。 下面是网上找的一篇关于JAVA代码优化的文章,觉得不错,就转载了。这里面设计到了JAVA基础和J2EE方面的优化建议,有时间会整理一下,现在先转载。 另外,依赖于具体的编译器/JVM,局部变量还可能得到进一步优化4、不要重复初始化变量 默认情况下,调用类的构造函数时, Java会把变量初始化成确定的值:所有的对象被设置成null,整数变量(byte、short、int、long)设置成0,float和 double 27、array(数组) 和 ArryList的使用 array([]):最高效;但是其容量固定且无法动态改变; ArrayList:容量可动态增长;但牺牲效率; 基于效率和类型检验,应尽可能使用

    1.3K130发布于 2018-03-15
  • 来自专栏JavaEdge

    Netflix云计算效率优化秘诀!

    数据与洞察组织与我们的工程团队密切合作,共享关键的效率指标,使内部利益相关者能够做出明智的业务决策。 Cloud Efficiency Analytics (CEA)云效率分析:该组件建立在 FPD 的基础上,提供一个分析数据层,在各种业务用例中提供时间序列效率指标。 数据原则 作为效率指标的真实来源,我们团队的任务是提供准确、可靠和可访问的数据,提供全面的文档资料,以便在复杂的效率空间中游刃有余,并提供定义明确的服务水平协议(SLA),以便在延迟、中断或变更期间与下游消费者达成期望 我们的目标是通过预测分析和 ML 来优化使用和检测成本中的异常情况,从而转向主动方法。 负责: 中央/分销预订系统性能优化 活动&券等营销中台建设 交易平台及数据中台等架构和开发设计 车联网核心平台-物联网连接平台、大数据平台架构设计及优化 LLM Agent应用开发 区块链应用开发

    18910编辑于 2025-06-01
领券