搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏澜舟科技 NLP
大模型落地实践：同花顺大模型技术应用及优化
文内从业务角度介绍了大模型技术在同花顺业务上的应用以及未来探索的方向。众所周知，大模型参数量大，通用能力强，综合性能好。但在同花顺业务场景中最初使用大模型的时候，发现用大模型的效果与传统方法差距不大，甚至有时候逊于原先传统的方法。所以最初在业务角度并不够重视，然而近期随着大模型技术的快速发展，我们也在逐步尝试将大模型在业务中落地，目前大模型在自然语言处理相关的业务里都取得了比传统模型更优的效果，下面详细介绍相关工作。之前我们用常规模型来做的时候准确率最多到 59%，目前使用大模型，考虑到本文较长且性能要求较高，因此使用参数较少的 tinyBERT，准确率是 69.45%，后续还需要做更多优化工作。大模型的优化大量研究表明通过调整预训练任务、使用更多训练数据、使用领域语料等方式，可以对原始的大规模预训练模型做进一步优化，达到更好的效果。
3.2K20编辑于 2022-08-11
来自专栏后端技术探索
Nginx防止大图片占满带宽
limit_rate 100k; } limit_rate_after 100k; limit_rate 100k; 这两句的意思就是当图片加载了100k以后进行限速，最高100k 测试测试服务器带宽为 1M，准备了一张3.3M的图片分别测试限速前后的网络情况，使用网络监控命令进行查看限速前访问图片，查看网络流量状态，速度一直保持在 130k/s 左右，正好为1M带宽的满载状态限速后访问图片，
1.6K20发布于 2018-08-09
来自专栏服务器介绍
什么是大带宽服务器？大带宽服务器的优势有哪些？
现今社会，对数据的应用越来越广泛，对香港服务器的租用也就越来愈多，许多企业都非常喜欢租用大带宽的服务器，那么，什么是大带宽服务器呢？香港大带宽服务器的优势有哪些呢？让影速科技小编带大家一起了解：什么是大带宽服务器？我们所说的大带宽服务器是一个泛指，通常来说100Mbps以上的带宽都可以成为大带宽，使用这种带宽的服务器都可以称为大带宽服务器，大带宽所使用的服务器一般支持100Mbps和1000Mbps的网卡自动切换大带宽服务器的优势有哪些？ 1、传输速度快大带宽服务器最主要就是可以有效实现双向数据同步传输，提升了数据的传输速度同时，也保证了稳定性。而且降低了丢包率，同样服务器也是安全性能很强的。 3、体验更好香港大带宽服务器可以承受更高的的流量，能够同时支持的在线用户越多，也不会带来卡顿。
9.3K30编辑于 2023-02-15
来自专栏用户9086217的专栏
IDC机房大带宽是什么？
带宽指的是单位时间内能够在线路上传送的数据量，带宽越大，支持在线传送的数据量就越大。大带宽一般指的是100Mbps的带宽都可以称之为大带宽，而使用这种带宽的服务器就是大家口中的大带宽服务器。 1、IDC机房和大带宽机房优势区分： IDC机房以机柜售卖为主，带宽量比较小；大带宽机房一般是单线机房，带宽量需求比较大故名为“大带宽”，以带宽需求为主，适合带宽需求量比较大的客户。 2、大带宽适合使用客户：多以直播平台、音视频平台、游戏平台、及时社交平台、互联网企业等。因为此类平台对网络的及时性和稳定性要求较高，大带宽自身特点：传输速度快、抗干扰能力强、独享带宽。带宽大网络快、防御也会好、自然就会比较稳定，一般防御越高的高防产品，默认配置的带宽也会越大，比如有台州高防800G的机器，默认带宽就是300M独享，就是为了消耗一部分cc和小包攻击占据的带宽。还有攻击来的时候抗攻击的大部分是机房带宽，机房总带宽越大，抗的攻击量就会越多。TG：li9047
8.8K20发布于 2021-11-03
来自专栏柒八九技术收纳盒
Web性能优化之延迟与带宽
「网页性能优化」，其实是一个捉摸不定的话题。在平时工作中，尤其现在框架盛行的今天，大家常常在写组件的时候就已经将性能优化考虑进去了。所以，在组件内部的优化只是「局部」小范围的。如果，继续上升高度，有人会说利用打包工具的按需加载import()也算是一种优化；还有针对页面级别的路由懒加载也是一种页面范围的优化处理。」延迟中相当大的一部分往往花在了「最后几公里」一条光纤连接的总带宽，等于每个信道的数据传输速率乘以可复用的信道数用户可用带宽取决于客户端与目标服务器间「最低容量连接」目标:「高带宽和低延迟」 ❝ 优化我们的JS执行效率和渲染时间 JS执行效率和渲染效率 4. 延迟的最后一公里延迟中相当大的一部分往往花在了「最后几公里」，而不是在横跨大洋或大陆时产生的，这就是所谓的「最后一公里」问题。参考资料： Web性能权威指南 16ms的优化 Google 性能优化 ISP
1.3K20编辑于 2022-08-25
来自专栏深度学习与python
Hugging Face 大语言模型优化技术
Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术。第一个优化手段是从float32切换到bfloat16精度：现在几乎所有的模型都是基于 bfloat16 训练的，如果你的 GPU 支持 bfloat16，就没有理由基于全 float32 精度运行模型 von Platen 写道，使用 Flash Attention 是另一相关键的优化，它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法，有可能打破输入标记数量的二次增长。在生产环境中部署大语言模型的第三项优化措施是选择正确的架构，让它们能够有效地处理长文本输入。位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型，应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。
51510编辑于 2023-10-09
来自专栏啄木鸟软件测试
大模型性能优化测试实战指南
本文基于我们在金融、政务、制造领域的真实测试案例，系统拆解大模型性能优化的测试方法论与实战路径，聚焦‘可测、可调、可证’三原则，拒绝空谈架构，直击工程落地痛点。算子层：使用Nsight Compute抓取FlashAttention内核的SM利用率与内存带宽瓶颈； 4. 三、优化不是玄学：可量化的四大杠杆与ROI评估我们拒绝‘加卡’式优化。结语：性能优化是测试工程师的新护城河大模型时代的性能测试，早已超越LoadRunner脚本编写。真正的优化，始于精准测量，成于深度归因，终于业务验证。下一期，我们将发布《大模型可靠性测试白皮书V2.0》，涵盖混沌工程注入、对抗样本压力测试等前沿实践，敬请关注。
8710编辑于 2026-06-15
来自专栏AI前沿技术
大模型-零冗余优化器zero
zero 零冗余优化器内存瓶颈：在训练过程中显存的用一般是四部分组成参数，梯度，优化器和中间激活值，前三项和参数量的的关系约为16倍。假如一个3B的模型，至少要48G的显存，加上中间激活着占用的显存，多张80G显存的A100，也力不从心！怎样在显存一定的情况下，克服内存墙是训练模型的关键之一。优化方案：即然参数，梯度和优化器GPU显存开销大，那就分级划片分成更小维度后，将它们放在不同的GPU设备上，用到时候再进行读取。采用混合精度计算，参数，梯度和优化器占用显存和总参数量的关系为： zero 三种优化策略对显存的进一步优化也就从这三方面下手，即零冗余优化，分为三个层次： • zero-1 仅对优化器分片优化后的内存占比为：当N比较大时，显存占用相当于原来的 • zero-2 对优化器和梯度分片优化后的内存占比为：当N比较大时，显存占用相当于原来的 • zero-3 对优化器，梯度和参数都分片优化后的内存占比为
26210编辑于 2026-01-13
来自专栏AI工程落地
大语言模型推理优化论文-EdgeMoE
关键技术优化（降低专家 I/O 开销）专家级位宽自适应（Expert-wise bitwidth adaptation）在可接受的精度损失范围内，为不同的专家选择不同的量化位宽（如 INT2, INT4 测试所得模型精度，若精度损失仍低于用户目标，说明模型可承受更多低位宽专家，则继续沿列表增大 K，直至精度损失达到目标；否则减小 K，通过提升更多专家到高位宽来降低精度损失。在 SAMSum 数据集上运行 ST-base-8 模型。推理加速：相比动态加载专家的基线（如 IO-EXP）和 STI 等内存优化基线，实现了显著的推理加速（摘要中未提具体倍数，正文有详述）。，从而在资源受限的边缘设备上实现了大型稀疏 MoE 语言模型的高效（内存+计算）推理。
62610编辑于 2025-07-18
来自专栏喔家ArchiSelf
大模型服务的推理优化探索
此外，随着模型规模的增长，一些包含数万亿参数的超大规模模型根本无法容纳在单个 GPU 中，使得稀疏性优化变得尤为关键。 1.2 请求调度问题大模型通常需要同时处理多个用户请求。通过引入这种高效的内存管理策略，页面注意力机制显著提升了推理时的内存利用率和并发处理能力，是当前大模型部署优化的重要方向之一。推理优化之推测性解码推测性解码（Speculative Decoding）是加速大语言模型推理的重要技术之一。推理优化之资源调度在大模型推理中，调度（scheduling）是一项关键挑战，其核心在于如何在有限的硬件资源（如 GPU、CPU 和硬盘）之间实现高效的负载平衡。这一方法为构建高性能、低延迟的大模型推理服务平台提供了重要参考。 7. 推理优化的其他方法在大语言模推理优化领域，有一些方法已经相对成熟，并被广大工程师广泛使用。
4.3K10编辑于 2025-07-08
利用大模型分歧优化NLP标注
假设你想运行一个NLP模型。输入文本，希望从中提取结构化信息，如命名实体、类别、文本片段等。你可以尝试利用大语言模型，通过提示词来获取这些信息。本地模型会从额外标注中获益，而如果发现大语言模型反复出现同类型错误，也可能促使你改进提示词。大语言模型是惊人的技术成就，但也存在生成有害文本的风险。通过让人工参与其中，可以降低这些风险渗透到定制模型中的可能性。本示例中使用某机构，但你也可以配置其他大语言模型提供商。甚至还有用于提示词工程的配置，帮助你为大语言模型编写更好的提示词。
13810编辑于 2026-05-11
来自专栏AI学习笔记
大模型内存优化：PagedAttention移动版
对于移动设备来说，其内存容量和带宽都非常有限，这使得大模型的部署变得极为困难。例如，一个拥有数十亿参数的大模型，可能需要占用几十GB的内存，而一般的移动设备内存仅为4GB到8GB。性能提升通过动态页面调度和缓存优化，提高模型的运行速度和效率。兼容性可以与现有的大模型架构和训练方法兼容，无需对模型进行大规模的修改。数据局部性如果模型计算过程中数据访问的局部性较差，会导致频繁的页面调度，降低效率。存储带宽限制外部存储设备的读写带宽有限，可能成为页面调度的瓶颈。这表明PagedAttention技术能够在移动设备上有效地优化大模型的内存使用，提高运行效率，而不影响模型的性能。易于集成：PagedAttention技术与现有的大模型架构和训练方法兼容，无需对模型进行大规模修改，即可实现内存优化和性能提升。
51600编辑于 2025-07-25
来自专栏AI+运维：智能化运维的未来
大模型技术：优化服务的利器
大模型技术：优化服务的利器在现代运维领域，大模型技术正逐渐成为优化服务的强大工具。从改进预测性维护到提升用户体验，大模型的应用范围广泛且效果显著。今天，我将以通俗易懂的方式，带大家了解大模型技术如何在服务优化中大展拳脚，并分享一些实际的代码示例来说明其应用。一、大模型技术的背景大模型（Large Model），通常指的是基于深度学习的大规模神经网络模型。这些模型具备强大的学习能力和推理能力，能够处理复杂的任务，例如自然语言处理、图像识别和预测分析等。大模型可以通过分析历史负载数据，预测未来的资源需求，从而优化资源调度方案。示例代码：使用大模型进行资源调度优化import numpy as npfrom sklearn.linear_model import LinearRegression# 假设我们有一份服务器负载数据
47810编辑于 2025-02-14
来自专栏腾讯技术工程官方号的专栏
大模型算力推演优化实战
作者：zhenfei 阅读帮助第一部分为看清：大模型的训练及推理过程是如何的，以及内部逻辑第二部分为理解：大模型的训练及推理和算力的关系第三部分为推演：用简单的公式量化大模型算力的需求第四部分为优化：我们如何提高算力利用率一、看清 1.1 大模型训练我们以投篮训练为例，来尝试理解大模型的训练过程。有了如上的验证，我们推演下业界一些公开模型的算力数据：四、优化至此，所有的算力推演部分结束，下面我们来简单看一组数据由上图可以看到，不论是训练还是推理，利用率都不是特别高，这其实对于大规模的模型推广是一大阻碍 2.1 数据并行：ZeRO 优化器 ZeRO（Zero Redundancy Optimizer）思想就是拆分参数、梯度及优化器状态，使得节点保存部分参数、梯度及优化器状态 2.2 模型并行：张量并行和流水线并行结束语随着混元的落地，LLama2 的开源，会有更多的预训练模型和推理模型的资源利用优化、评估的事情，这也是我们下阶段工作（算力评估、性能优化）的一个开端，欢迎对大模型算力及优化感兴趣的同学一起交流沟通
2.3K40编辑于 2023-08-25
来自专栏啄木鸟软件测试
大模型测试：性能优化的5大实战策略
引言随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地，模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。这些并非个例，而是大模型测试进入深水区的典型信号：性能不是附加项，而是可信AI的第一道防线。一、明确性能基线：拒绝‘拍脑袋’指标大模型性能测试首要误区是套用小模型标准。二、分层注入式压测：从单卡到集群的穿透验证传统压力测试常止步于API层，而大模型性能瓶颈常藏于框架底层。三、动态量化与缓存协同：轻量级优化的黄金组合量化不是‘一刀切’，而是与缓存机制深度耦合的系统工程。结语大模型性能测试的本质，是构建‘可测量、可归因、可演进’的效能反馈闭环。
37810编辑于 2026-03-31
来自专栏AI SPPECH
54_模型优化：大模型的压缩与量化
深度解析大模型瘦身技术与工程实践大模型优化技术演进 ├── 早期阶段(2018-2020): 基本剪枝、8位量化，性能损失明显 ├── 发展阶段(2021-2023): 知识蒸馏、结构化剪枝，平衡效率与精度能源消耗与可持续发展矛盾大模型训练和推理的能源消耗巨大与全球可持续发展目标形成鲜明对比能源成本成为限制大模型广泛应用的瓶颈 1.2 优化的核心目标与指标大模型优化的核心目标是在保持模型性能的同时的FL-Compress 8.2 推理优化新方法 2025年，大模型推理优化领域出现了多种创新方法： 1. 9.1 技术发展趋势预测展望未来，大模型优化技术将沿着以下方向发展： 1. 未来，随着技术的不断进步，大模型的优化将更加智能化、自动化和个性化。
1.1K10编辑于 2025-11-16
来自专栏存储公众号：王知鱼
IMPRESS：大模型推理存储优化新突破
全文概览大模型推理技术正广泛应用于聊天、搜索、代码生成等领域，但其高效运行面临关键挑战：用户提问常共享大量上下文知识，导致系统需频繁加载重复数据。研究背景与问题意识大模型推理大模型推理有海量应用场景，目前已应用于多个领域：聊天（Chat）: ChatGPT 搜索（Search）: Perplexity 代码（Code）: Cursor 问答（Q&A）: ChatPDF 在实际使用过程中，构建大模型问答的请求，需要结合丰富的上下文知识+用户针对性的提问，从应用后端统计来看，大量的用户提问共享相同的上下文知识，这启发了高频访问数据的优化设计。 Note FAST 25 很多论文都在讨论推理场景存储访问优化，其核心又集中在缓存管理机制，与早期大数据推荐系统的缓存管理相比，大模型的热数据管理，呈现出更大范围的随机性，全部数据加载是不切实际的。 (3) 指导硬件和软件设计敏感性分析的结果可以为硬件选型（如 GPU 内存容量、SSD 带宽）和软件优化（如缓存管理策略）提供依据。
1.4K10编辑于 2025-03-17
来自专栏具身小站
大模型优化技术（RAG 和 LoRA）对比
RAG 和 LoRA 是优化大模型的两种主流且互补的技术， LoRA 是给模型“大脑升级”的技能插件，RAG 是给模型“大脑联网”的外挂知识库，分别从“模型能力”和“知识获取”两个不同维度，来解决让通用大模型变得更专业的问题两者的对比如下：对比维度 LoRA (低秩适应) RAG (检索增强生成) 核心思想训练一个技能插件冻结原有模型，只训练一个极小模块，使模型在特定任务上“更擅长” 挂载一个外挂知识库不修改模型，从外部知识库检索信息，让模型“懂得更多” 工作原理改变模型本身通过矩阵分解微调部分权重，从根本上调整模型的思考方式改变模型输入检索相关信息并拼接到问题中，模型基于增强的输入进行回答知识更新成本高，需重新训练新知识需要重新微调：知识库实时更新，内容不过时主要局限 • 训练成本：仍需准备训练数据和进行训练• 过时风险：模型知识无法自动更新• 无法溯源：模型内部决策过程不透明 • 能力受限：无法改变模型本身能力，依赖检索质量• 生成：将这些片段与原始问题一起提交给大模型，模型据此生成有据可依的回答。
19010编辑于 2026-05-22
来自专栏啄木鸟软件测试
大模型测试性能优化：测试专家必看
更严峻的是——大模型测试本身正成为性能瓶颈：单次Prompt-Response耗时数百毫秒至数秒，批量评估动辄数小时；RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型，端到端延迟陡增；而A/B 本文从工程化视角，为测试专家梳理大模型测试性能优化的四大核心路径。三、轻量化评估代理：用小模型替代大模型做质检让GPT-4或Qwen-Max为每个response打分，经济与效率双输。四、测试即代码（TaaC）：编排优化与资源感知调度大模型测试不再是‘点一下Run’的黑盒操作。结语大模型测试的性能优化，本质是测试思维的升维：从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。
39510编辑于 2026-03-04
来自专栏AI工程落地
大语言模型推理优化论文-Reasoning on a Budget
方法描述该论文把现有的论文分成两种方法来优化模型推理过程中的计算效率：可控测试时间计算（Controllable Test-Time Compute）和自适应测试时间计算（Adaptive Test-Time L1（可控计算）：用户设定预算上限（如最多生成1000 tokens），模型在此约束下优化答案质量。 L2（自适应计算）：模型自主分配计算量，平衡质量与效率： α调节效率权重核心思想：像"学生根据题难度自主分配时间"，简单题快速作答，难题深入思考。推理感知微调：训练时模拟推理过程（如Best-of-N采样），使模型适应测试环境。长短思维链蒸馏：教师模型生成长短两种CoT 学生模型学习"何时用短CoT"（如添加[简单]标签）突破：模型自适应选择推理深度。
59710编辑于 2025-07-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型落地实践：同花顺大模型技术应用及优化

Nginx防止大图片占满带宽

什么是大带宽服务器？大带宽服务器的优势有哪些？

IDC机房大带宽是什么？

Web性能优化之延迟与带宽

Hugging Face 大语言模型优化技术

大模型性能优化测试实战指南

大模型-零冗余优化器zero

大语言模型推理优化论文-EdgeMoE

大模型服务的推理优化探索

利用大模型分歧优化NLP标注

大模型内存优化：PagedAttention移动版

大模型技术：优化服务的利器

大模型算力推演优化实战

大模型测试：性能优化的5大实战策略

54_模型优化：大模型的压缩与量化

IMPRESS：大模型推理存储优化新突破

大模型优化技术（RAG 和 LoRA）对比

大模型测试性能优化：测试专家必看

大语言模型推理优化论文-Reasoning on a Budget

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型落地实践：同花顺大模型技术应用及优化

Nginx防止大图片占满带宽

什么是大带宽服务器？大带宽服务器的优势有哪些？

IDC机房大带宽是什么？

Web性能优化之 延迟与带宽

Hugging Face 大语言模型优化技术

大模型性能优化测试实战指南

大模型-零冗余优化器zero

大语言模型推理优化论文-EdgeMoE

大模型服务的推理优化探索

利用大模型分歧优化NLP标注

大模型内存优化：PagedAttention移动版

大模型技术：优化服务的利器

大模型算力推演优化实战

大模型测试：性能优化的5大实战策略

54_模型优化：大模型的压缩与量化

IMPRESS：大模型推理存储优化新突破

大模型优化技术（RAG 和 LoRA）对比

大模型测试性能优化：测试专家必看

大语言模型推理优化论文-Reasoning on a Budget

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Web性能优化之延迟与带宽