首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏澜舟科技 NLP

    模型落地实践:同花顺模型技术应用及优化

    文内从业务角度介绍了模型技术在同花顺业务上的应用以及未来探索的方向。众所周知,模型参数量大,通用能力强,综合性能好。 但在同花顺业务场景中最初使用模型的时候,发现用模型的效果与传统方法差距不大,甚至有时候逊于原先传统的方法。 所以最初在业务角度并不够重视,然而近期随着模型技术的快速发展,我们也在逐步尝试将模型在业务中落地,目前模型在自然语言处理相关的业务里都取得了比传统模型更优的效果,下面详细介绍相关工作。 之前我们用常规模型来做的时候准确率最多到 59%,目前使用模型,考虑到本文较长且性能要求较高,因此使用参数较少的 tinyBERT, 准确率是 69.45%,后续还需要做更多优化工作。 模型优化大量研究表明通过调整预训练任务、使用更多训练数据、使用领域语料等方式,可以对原始的大规模预训练模型做进一步优化,达到更好的效果。

    3.2K20编辑于 2022-08-11
  • 来自专栏后端技术探索

    Nginx防止图片占满带宽

    limit_rate 100k; } limit_rate_after 100k; limit_rate 100k; 这两句的意思就是当图片加载了100k以后进行限速,最高100k 测试 测试服务器带宽为 1M,准备了一张3.3M的图片 分别测试限速前后的网络情况,使用网络监控命令进行查看 限速前 访问图片,查看网络流量状态,速度一直保持在 130k/s 左右,正好为1M带宽的满载状态 限速后 访问图片,

    1.6K20发布于 2018-08-09
  • 来自专栏服务器介绍

    什么是带宽服务器?带宽服务器的优势有哪些?

    现今社会,对数据的应用越来越广泛,对香港服务器的租用也就越来愈多,许多企业都非常喜欢租用带宽的服务器,那么,什么是带宽服务器呢?香港带宽服务器的优势有哪些呢? 让影速科技小编带大家一起了解: 什么是带宽服务器? 我们所说的带宽服务器是一个泛指,通常来说100Mbps以上的带宽都可以成为带宽,使用这种带宽的服务器都可以称为带宽服务器,带宽所使用的服务器一般支持100Mbps和1000Mbps的网卡自动切换 带宽服务器的优势有哪些? 1、传输速度快 带宽服务器最主要就是可以有效实现双向数据同步传输,提升了数据的传输速度同时,也保证了稳定性。而且降低了丢包率,同样服务器也是安全性能很强的。 3、体验更好 香港带宽服务器可以承受更高的的流量,能够同时支持的在线用户越多,也不会带来卡顿。

    9.3K30编辑于 2023-02-15
  • 来自专栏用户9086217的专栏

    IDC机房带宽是什么?

    带宽指的是单位时间内能够在线路上传送的数据量,带宽越大,支持在线传送的数据量就越大。带宽一般指的是100Mbps的带宽都可以称之为带宽,而使用这种带宽的服务器就是大家口中的带宽服务器。 1、IDC机房和带宽机房优势区分: IDC机房以机柜售卖为主,带宽量比较小; 带宽机房一般是单线机房,带宽量需求比较大故名为“带宽”,以带宽需求为主,适合带宽需求量比较大的客户。 2、带宽适合使用客户:多以直播平台、音视频平台、游戏平台、及时社交平台、互联网企业等。因为此类平台对网络的及时性和稳定性要求较高,带宽自身特点:传输速度快、抗干扰能力强、独享带宽带宽大网络快、防御也会好、自然就会比较稳定,一般防御越高的高防产品,默认配置的带宽也会越大,比如有台州高防800G的机器,默认带宽就是300M独享,就是为了消耗一部分cc和小包攻击占据的带宽。 还有攻击来的时候抗攻击的大部分是机房带宽,机房总带宽越大,抗的攻击量就会越多。TG:li9047

    8.8K20发布于 2021-11-03
  • 来自专栏柒八九技术收纳盒

    Web性能优化之 延迟与带宽

    「网页性能优化」,其实是一个捉摸不定的话题。在平时工作中,尤其现在框架盛行的今天,大家常常在写组件的时候就已经将性能优化考虑进去了。 所以,在组件内部的优化只是「局部」小范围的。 如果,继续上升高度,有人会说利用打包工具的按需加载import()也算是一种优化;还有针对页面级别的路由懒加载也是一种页面范围的优化处理。 」 延迟中相当的一部分往往花在了「最后几公里」 一条光纤连接的总带宽,等于每个信道的数据传输速率乘以可复用的信道数 用户可用带宽取决于客户端与目标服务器间「最低容量连接」 目标:「高带宽和低延迟」 ❝ 优化我们的JS执行效率和渲染时间 JS执行效率和渲染效率 4. 延迟的最后一公里 延迟中相当的一部分往往花在了「最后几公里」,而不是在横跨大洋或大陆时产生的,这就是所谓的「最后一公里」问题。 参考资料: Web性能权威指南 16ms的优化 Google 性能优化 ISP

    1.3K20编辑于 2022-08-25
  • 来自专栏深度学习与python

    Hugging Face 语言模型优化技术

    Hugging Face 基于他们提供模型服务的经验分享了一些克服这些障碍的技术。 第一个优化手段是从float32切换到bfloat16精度: 现在几乎所有的模型都是基于 bfloat16 训练的,如果你的 GPU 支持 bfloat16,就没有理由基于全 float32 精度运行模型 von Platen 写道,使用 Flash Attention 是另一相关键的优化,它是语言模型用来理解输入标记上下文关系的自注意力层的一种算法,有可能打破输入标记数量的二次增长。 在生产环境中部署语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。 位置嵌入通过将每个标记的位置编码为数字表示来帮助语言模型理解序列顺序。对于需要处理大型文本输入任务的语言模型,应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。

    51510编辑于 2023-10-09
  • 来自专栏啄木鸟软件测试

    模型性能优化测试实战指南

    本文基于我们在金融、政务、制造领域的真实测试案例,系统拆解模型性能优化的测试方法论与实战路径,聚焦‘可测、可调、可证’三原则,拒绝空谈架构,直击工程落地痛点。 算子层:使用Nsight Compute抓取FlashAttention内核的SM利用率与内存带宽瓶颈; 4. 三、优化不是玄学:可量化的四杠杆与ROI评估 我们拒绝‘加卡’式优化。 结语:性能优化是测试工程师的新护城河 模型时代的性能测试,早已超越LoadRunner脚本编写。 真正的优化,始于精准测量,成于深度归因,终于业务验证。下一期,我们将发布《模型可靠性测试白皮书V2.0》,涵盖混沌工程注入、对抗样本压力测试等前沿实践,敬请关注。

    8710编辑于 2026-06-15
  • 来自专栏AI前沿技术

    模型-零冗余优化器zero

    zero 零冗余优化器 内存瓶颈: 在训练过程中显存的用一般是四部分组成参数,梯度,优化器和中间激活值,前三项和参数量的的关系约为16倍。 假如一个3B的模型,至少要48G的显存,加上中间激活着占用的显存,多张80G显存的A100,也力不从心!怎样在显存一定的情况下,克服内存墙是训练模型的关键之一。 优化方案: 即然参数,梯度和优化器GPU显存开销,那就分级划片分成更小维度后,将它们放在不同 的GPU设备上,用到时候再进行读取。 采用混合精度计算,参数,梯度和优化器占用显存和总参数量 的关系为: zero 三种优化策略 对显存的进一步优化也就从这三方面下手,即零冗余优化,分为三个层次: • zero-1 仅对优化器分片 优化后的内存占比为 : 当N比较大时, 显存占用相当于原来的 • zero-2 对优化器和梯度分片 优化后的内存占比为: 当N比较大时, 显存占用相当于原来的 • zero-3 对优化器,梯度和参数都分片 优化后的内存占比为

    26210编辑于 2026-01-13
  • 来自专栏AI工程落地

    语言模型推理优化论文-EdgeMoE

    关键技术优化(降低专家 I/O 开销) 专家级位宽自适应(Expert-wise bitwidth adaptation) 在可接受的精度损失范围内,为不同的专家选择不同的量化位宽(如 INT2, INT4 测试所得模型精度,若精度损失仍低于用户目标,说明模型可承受更多低位宽专家,则继续沿列表增大 K,直至精度损失达到目标;否则减小 K,通过提升更多专家到高位宽来降低精度损失。 在 SAMSum 数据集上运行 ST-base-8 模型。 推理加速: 相比动态加载专家的基线(如 IO-EXP)和 STI 等内存优化基线,实现了显著的推理加速(摘要中未提具体倍数,正文有详述)。 ,从而在资源受限的边缘设备上实现了大型稀疏 MoE 语言模型的高效(内存+计算)推理。

    62610编辑于 2025-07-18
  • 来自专栏喔家ArchiSelf

    模型服务的推理优化探索

    此外,随着模型规模的增长,一些包含数万亿参数的超大规模模型根本无法容纳在单个 GPU 中,使得稀疏性优化变得尤为关键。 1.2 请求调度问题 模型通常需要同时处理多个用户请求。 通过引入这种高效的内存管理策略,页面注意力机制显著提升了推理时的内存利用率和并发处理能力,是当前模型部署优化的重要方向之一。 推理优化之推测性解码 推测性解码(Speculative Decoding) 是加速语言模型推理的重要技术之一。 推理优化之资源调度 在模型推理中,调度(scheduling) 是一项关键挑战,其核心在于如何在有限的硬件资源(如 GPU、CPU 和硬盘)之间实现高效的负载平衡。 这一方法为构建高性能、低延迟的模型推理服务平台提供了重要参考。 7. 推理优化的其他方法 在语言模推理优化领域,有一些方法已经相对成熟,并被广大工程师广泛使用。

    4.3K10编辑于 2025-07-08
  • 利用模型分歧优化NLP标注

    假设你想运行一个NLP模型。输入文本,希望从中提取结构化信息,如命名实体、类别、文本片段等。你可以尝试利用语言模型,通过提示词来获取这些信息。 本地模型会从额外标注中获益,而如果发现语言模型反复出现同类型错误,也可能促使你改进提示词。 语言模型是惊人的技术成就,但也存在生成有害文本的风险。通过让人工参与其中,可以降低这些风险渗透到定制模型中的可能性。 本示例中使用某机构,但你也可以配置其他语言模型提供商。 甚至还有用于提示词工程的配置,帮助你为语言模型编写更好的提示词。

    13810编辑于 2026-05-11
  • 来自专栏AI学习笔记

    模型内存优化:PagedAttention移动版

    对于移动设备来说,其内存容量和带宽都非常有限,这使得模型的部署变得极为困难。例如,一个拥有数十亿参数的模型,可能需要占用几十GB的内存,而一般的移动设备内存仅为4GB到8GB。 性能提升通过动态页面调度和缓存优化,提高模型的运行速度和效率。兼容性可以与现有的模型架构和训练方法兼容,无需对模型进行大规模的修改。 数据局部性如果模型计算过程中数据访问的局部性较差,会导致频繁的页面调度,降低效率。存储带宽限制外部存储设备的读写带宽有限,可能成为页面调度的瓶颈。 这表明PagedAttention技术能够在移动设备上有效地优化模型的内存使用,提高运行效率,而不影响模型的性能。 易于集成:PagedAttention技术与现有的模型架构和训练方法兼容,无需对模型进行大规模修改,即可实现内存优化和性能提升。

    51600编辑于 2025-07-25
  • 来自专栏AI+运维:智能化运维的未来

    模型技术:优化服务的利器

    模型技术:优化服务的利器在现代运维领域,模型技术正逐渐成为优化服务的强大工具。从改进预测性维护到提升用户体验,模型的应用范围广泛且效果显著。 今天,我将以通俗易懂的方式,带大家了解模型技术如何在服务优化中大展拳脚,并分享一些实际的代码示例来说明其应用。 一、模型技术的背景模型(Large Model),通常指的是基于深度学习的大规模神经网络模型。这些模型具备强大的学习能力和推理能力,能够处理复杂的任务,例如自然语言处理、图像识别和预测分析等。 模型可以通过分析历史负载数据,预测未来的资源需求,从而优化资源调度方案。 示例代码:使用模型进行资源调度优化import numpy as npfrom sklearn.linear_model import LinearRegression# 假设我们有一份服务器负载数据

    47810编辑于 2025-02-14
  • 来自专栏腾讯技术工程官方号的专栏

    模型算力推演优化实战

    作者:zhenfei 阅读帮助 第一部分为看清:模型的训练及推理过程是如何的,以及内部逻辑 第二部分为理解:模型的训练及推理和算力的关系 第三部分为推演:用简单的公式量化模型算力的需求 第四部分为优化 :我们如何提高算力利用率 一、看清 1.1 模型训练 我们以投篮训练为例,来尝试理解模型的训练过程。 有了如上的验证,我们推演下业界一些公开模型的算力数据: 四、优化 至此,所有的算力推演部分结束,下面我们来简单看一组数据 由上图可以看到,不论是训练还是推理,利用率都不是特别高,这其实对于大规模的模型推广是一阻碍 2.1 数据并行:ZeRO 优化器 ZeRO(Zero Redundancy Optimizer)思想就是拆分 参数、梯度及优化器状态,使得节点保存部分参数、梯度及优化器状态 2.2 模型并行:张量并行和流水线并行 结束语 随着混元的落地,LLama2 的开源,会有更多的预训练模型和推理模型的资源利用优化、评估的事情,这也是我们下阶段工作(算力评估、性能优化)的一个开端,欢迎对模型算力及优化感兴趣的同学一起交流沟通

    2.3K40编辑于 2023-08-25
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 三、动态量化与缓存协同:轻量级优化的黄金组合 量化不是‘一刀切’,而是与缓存机制深度耦合的系统工程。 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    37810编辑于 2026-03-31
  • 来自专栏AI SPPECH

    54_模型优化模型的压缩与量化

    深度解析模型瘦身技术与工程实践 模型优化技术演进 ├── 早期阶段(2018-2020): 基本剪枝、8位量化,性能损失明显 ├── 发展阶段(2021-2023): 知识蒸馏、结构化剪枝,平衡效率与精度 能源消耗与可持续发展矛盾 模型训练和推理的能源消耗巨大 与全球可持续发展目标形成鲜明对比 能源成本成为限制模型广泛应用的瓶颈 1.2 优化的核心目标与指标 模型优化的核心目标是在保持模型性能的同时 的FL-Compress 8.2 推理优化新方法 2025年,模型推理优化领域出现了多种创新方法: 1. 9.1 技术发展趋势预测 展望未来,模型优化技术将沿着以下方向发展: 1. 未来,随着技术的不断进步,模型优化将更加智能化、自动化和个性化。

    1.1K10编辑于 2025-11-16
  • 来自专栏存储公众号:王知鱼

    IMPRESS:模型推理存储优化新突破

    全文概览 模型推理技术正广泛应用于聊天、搜索、代码生成等领域,但其高效运行面临关键挑战:用户提问常共享大量上下文知识,导致系统需频繁加载重复数据。 研究背景与问题意识 模型推理 模型推理有海量应用场景,目前已应用于多个领域: 聊天(Chat): ChatGPT 搜索(Search): Perplexity 代码(Code): Cursor 问答 (Q&A): ChatPDF 在实际使用过程中,构建模型问答的请求,需要结合丰富的上下文知识+用户针对性的提问,从应用后端统计来看,大量的用户提问共享相同的上下文知识,这启发了高频访问数据的优化设计。 Note FAST 25 很多论文都在讨论推理场景存储访问优化,其核心又集中在缓存管理机制,与早期大数据推荐系统的缓存管理相比,模型的热数据管理,呈现出更大范围的随机性,全部数据加载是不切实际的。 (3) 指导硬件和软件设计 敏感性分析的结果可以为硬件选型(如 GPU 内存容量、SSD 带宽)和软件优化(如缓存管理策略)提供依据。

    1.4K10编辑于 2025-03-17
  • 来自专栏具身小站

    模型优化技术(RAG 和 LoRA)对比

    RAG 和 LoRA 是优化模型的两种主流且互补的技术, LoRA 是给模型“大脑升级”的技能插件,RAG 是给模型“大脑联网”的外挂知识库, 分别从“模型能力”和“知识获取”两个不同维度,来解决让通用模型变得更专业的问题 两者的对比如下: 对比维度 LoRA (低秩适应) RAG (检索增强生成) 核心思想 训练一个技能插件冻结原有模型,只训练一个极小模块,使模型在特定任务上“更擅长” 挂载一个外挂知识库不修改模型,从外部知识库检索信息 ,让模型“懂得更多” 工作原理 改变模型本身通过矩阵分解微调部分权重,从根本上调整模型的思考方式 改变模型输入检索相关信息并拼接到问题中,模型基于增强的输入进行回答 知识更新 成本高,需重新训练新知识需要重新微调 :知识库实时更新,内容不过时 主要局限 • 训练成本:仍需准备训练数据和进行训练• 过时风险:模型知识无法自动更新• 无法溯源:模型内部决策过程不透明 • 能力受限:无法改变模型本身能力,依赖检索质量• 生成 :将这些片段与原始问题一起提交给模型模型据此生成有据可依的回答。

    19010编辑于 2026-05-22
  • 来自专栏啄木鸟软件测试

    模型测试性能优化:测试专家必看

    更严峻的是——模型测试本身正成为性能瓶颈:单次Prompt-Response耗时数百毫秒至数秒,批量评估动辄数小时;RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型,端到端延迟陡增;而A/B 本文从工程化视角,为测试专家梳理模型测试性能优化的四核心路径。 三、轻量化评估代理:用小模型替代模型做质检 让GPT-4或Qwen-Max为每个response打分,经济与效率双输。 四、测试即代码(TaaC):编排优化与资源感知调度 模型测试不再是‘点一下Run’的黑盒操作。 结语 模型测试的性能优化,本质是测试思维的升维:从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。

    39510编辑于 2026-03-04
  • 来自专栏AI工程落地

    语言模型推理优化论文-Reasoning on a Budget

    方法描述 该论文把现有的论文分成两种方法来优化模型推理过程中的计算效率:可控测试时间计算(Controllable Test-Time Compute)和自适应测试时间计算(Adaptive Test-Time L1(可控计算):用户设定预算上限(如最多生成1000 tokens),模型在此约束下优化答案质量。 L2(自适应计算):模型自主分配计算量,平衡质量与效率: α调节效率权重 核心思想:像"学生根据题难度自主分配时间",简单题快速作答,难题深入思考。 推理感知微调: 训练时模拟推理过程(如Best-of-N采样),使模型适应测试环境。 长短思维链蒸馏: 教师模型生成长短两种CoT 学生模型学习"何时用短CoT"(如添加[简单]标签) 突破:模型自适应选择推理深度。

    59710编辑于 2025-07-21
领券