搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏啄木鸟软件测试
大模型测试：性能优化的5大实战策略
引言随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地，模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。这些并非个例，而是大模型测试进入深水区的典型信号：性能不是附加项，而是可信AI的第一道防线。一、明确性能基线：拒绝‘拍脑袋’指标大模型性能测试首要误区是套用小模型标准。二、分层注入式压测：从单卡到集群的穿透验证传统压力测试常止步于API层，而大模型性能瓶颈常藏于框架底层。三、动态量化与缓存协同：轻量级优化的黄金组合量化不是‘一刀切’，而是与缓存机制深度耦合的系统工程。结语大模型性能测试的本质，是构建‘可测量、可归因、可演进’的效能反馈闭环。
18710编辑于 2026-03-31
来自专栏啄木鸟软件测试
大模型测试性能优化：测试专家必看
更严峻的是——大模型测试本身正成为性能瓶颈：单次Prompt-Response耗时数百毫秒至数秒，批量评估动辄数小时；RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型，端到端延迟陡增；而A/B 本文从工程化视角，为测试专家梳理大模型测试性能优化的四大核心路径。四、测试即代码（TaaC）：编排优化与资源感知调度大模型测试不再是‘点一下Run’的黑盒操作。结语大模型测试的性能优化，本质是测试思维的升维：从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。未来，随着MoE架构普及与推理芯片专用化，测试性能瓶颈将进一步下移至数据加载、token预处理等环节。唯有坚持‘测试左移+评估右移+工具自治’三位一体，测试才能真正成为大模型可信落地的压舱石。
26810编辑于 2026-03-04
零基础学AI大模型之嵌入模型性能优化
AI大模型之SpringAI 4、零基础学AI大模型之AI大模型常见概念 5、零基础学AI大模型之大模型私有化部署全指南 6、零基础学AI大模型之AI大模型可视化界面 7、零基础学AI大模型之LangChain Embedding与LLM大模型对比全解析 24、零基础学AI大模型之LangChain Embedding框架全解析零基础学AI大模型之嵌入模型性能优化大家好，我是工藤学编程，一个专注于实战技术分享的小博主今天就来深入聊聊嵌入模型的性能优化方案——缓存机制，这既是生产环境的核心优化手段，也是大厂面试的高频考点，建议收藏细品！一、需求背景：为什么要优化嵌入模型？在RAG系统中，嵌入模型的作用是将文本（文档/查询）转换为高维向量，为后续的相似度检索提供基础。但在实际应用中，嵌入计算往往会成为系统的性能瓶颈，这也是面试中经常被问到的“RAG系统优化痛点”之一。面试中遇到“RAG系统性能优化”问题时，可从“缓存机制+存储选型+预计算策略”三个维度展开，结合本文案例能体现你的实战经验～如果觉得本文有帮助，欢迎关注我的博客，后续会持续更新RAG系统进阶实战（如向量数据库整合
26610编辑于 2025-12-22
优化大语言模型性能与输出质量实用指南
如何优化大语言模型性能与输出质量：实用指南大语言模型的问题：强大但存在局限大语言模型具有巨大潜力，但远非完美。另一个众所周知的问题是幻觉现象：模型可能以高度自信的态度输出错误信息，这源于训练数据中的噪声和不一致性。更关键的是，大多数基础模型在专业领域的知识深度有限。可以将基础模型类比为全科医生：擅长处理常见问题，但需要专业任务时就必须依赖基于领域数据微调后的"专科医生"模型。提升性能与质量的四种路径1. 这种方法通常是最简单快速的优化手段，无需修改底层模型结构，仅通过精心设计的提示就能显著提升输出质量。2. 这相当于为外科医生提供完整的病历档案、最新扫描结果和当前健康趋势数据，使模型具备情境感知能力。该方法特别适用于知识库频繁更新的场景（如新闻、法规或动态产品数据），无需每次重新训练模型即可获取最新信息。
30610编辑于 2025-09-17
来自专栏AI工程落地
Mxnet模型性能优化
导语：模型优化有很多方法，比如模型压缩、模型剪纸、转tensorrt等。本文讨论mxnet模型tesorrt优化，主要解决动态batch、Op不支持问题。 1. 3.1 支持动态batch mxnet没有dynamic_axes可以配置，此时转好的模型batch固定为1。 ONNX中对shape的处理，可以为text，所以我们可以直接修改onnx模型去支持动态batch。： [不支持动态batch] 修改后模型结构： [支持动态batch] 3.2 PRelu参数修改报错如下： [TensorRT] ERROR: relu0_1: slope tensor must ： [旧slope模型结构] 修改后模型结构： [新slope模型结构] 4. onnx简化 from onnxsim import simplify model_onnx = onnx.load(onnx_path
71420编辑于 2022-02-25
从大模型性能优化到DeepSeek部署｜得物技术
本文主要探讨如何优化本地部署大模型的性能，并结合我们的实践进行评测分析，文章最后我们将分享如何在本地高效部署满血版Deepseek-r1大模型。在生产环境中，我们已部署专用的大模型推理集群，并对其性能进行了全面优化。对于大模型推理来说，性能优化主要聚焦于两个关键指标：吞吐量与响应时间(RT)。二、高性能、易扩展的大模型推理框架是什么样的尽管业界已有许多经典的大模型推理框架，但在深入了解这些框架之前，我们不妨先思考一下，如何设计一个既高性能又易于扩展的大模型推理框架。 a.使用大模型+小模型的方式b.使用n-gram的方式九、高效部署Deepseek-R1模型的方法前面我们介绍了业界大模型性能优化的很多方法，接下来我们将用SGLang这个推理引擎来部署下最近爆火Deepseek-R1 文章最后还给出最近爆火的deepseek-r1的高效部署方法，欢迎大家去尝试优化。后续我们将会持续关注大模型推理性能提升方面的最新技术，验证并及时分享给大家。
1.6K10编辑于 2025-02-18
来自专栏AI SPPECH
大模型驱动的应用性能智能分析与优化
本文将深入探讨大模型驱动的应用性能智能分析与优化实践，包括应用性能管理的基础概念、传统方法的挑战、大模型在性能分析中的价值、系统架构设计、核心技术实现、应用场景与案例、最佳实践及未来趋势，帮助运维工程师构建智能自然语言交互：通过自然语言与系统进行交互，降低使用门槛全局视角：从全局视角分析性能问题，避免局部优化持续优化：建立持续优化的机制，不断提升系统性能 3.3 大模型与传统APM的融合大模型与传统APM 自动报告生成：利用大模型自动生成性能分析报告知识管理系统：利用大模型构建性能分析知识管理系统智能优化建议：基于大模型提供智能的性能优化建议大模型与传统APM的融合 ┌────────────── ：大模型深度融合：大模型将更深度地融合到性能分析和优化的各个环节实时性增强：实时性能分析和优化将成为主流预测性运维：从被动响应向主动预测和预防转变自动化闭环：实现从异常检测、根因分析到优化实施的自动化闭环你如何看待大模型在应用性能优化中的应用前景？你认为大模型能完全替代人工进行性能优化吗？结合你的实际工作经验，你认为哪些应用场景最适合首先引入智能性能分析？为什么？
17610编辑于 2025-11-13
来自专栏数据科学（冷冻工厂）
PyTorch模型性能分析与优化
训练深度学习模型，尤其是大型模型，可能是一项昂贵的支出。我们可以使用的管理这些成本的主要方法之一是性能优化。性能优化是一个迭代过程，我们不断寻找提高应用程序性能的机会，然后利用这些机会。，这种优化并没有以任何有意义的方式提高我们的性能。还有一些时候，您可能需要显式设置模型不同部分的精度类型（即手动混合精度）。优化7：在图形模式下训练我们将应用的最终优化是模型编译。 = torch.compile(model) 模型编译优化结果如下所示：与之前实验中的 2477 个样本相比，模型编译进一步将我们的吞吐量提高到每秒 3268 个样本，性能额外提升了 32% (! 总结在这篇文章中，我们展示了玩具分类模型性能优化的巨大潜力。
67410编辑于 2023-09-06
来自专栏cwl_Java
性能优化-jvm的内存模型
3、jvm的内存模型 jvm的内存模型在1.7和1.8有较大的区别，虽然本套课程是以1.8为例进行讲解，但是我们也是需要对1.7的内存模型有所了解，所以接下里，我们将先学习1.7再学习1.8的内存模型 3.1、jdk1.7的堆内存模型 ? 3.2、jdk1.8的堆内存模型 ? 由上图可以看出，jdk1.8的内存模型是由2部分组成，年轻代 + 年老代。（KB） S0U：第一个Survivor区的使用大小（KB） S1U：第二个Survivor区的使用大小（KB） EC：Eden区的大小（KB） EU：Eden区的使用大小（KB） OC：Old 区大
70740发布于 2020-02-13
来自专栏AI SPPECH
大模型在网络性能优化与故障诊断中的应用
大语言模型(LLM)技术的快速发展，为网络性能优化与故障诊断带来了新的机遇。基于大模型的智能网络管理系统能够自动分析网络数据、识别性能瓶颈、预测潜在故障、提供优化建议，显著提升网络运维的效率和质量。同时，大模型还能够结合上下文信息，提高异常检测的准确性。 5.3 性能瓶颈智能分析性能瓶颈分析是网络性能优化的关键环节。 5.4 网络性能优化策略生成基于大模型的网络性能优化策略生成主要包括以下几个步骤：优化目标确定：根据业务需求和性能分析结果，确定性能优化的目标优化方案设计：设计多种可能的优化方案，如网络拓扑调整、实施方案：该电信运营商引入了基于大模型的网络性能优化与故障诊断系统，主要包括以下几个方面：全网数据采集与分析：采集和分析全网的网络性能数据、流量数据、配置数据等智能流量分析与优化：利用大模型对网络流量进行智能分析和优化，大模型的推理速度可能无法满足需求应对：优化大模型的推理性能，使用模型压缩、量化等技术，结合边缘计算和实时计算技术，提高系统的实时响应能力模型解释性差的问题挑战：大模型的决策过程往往是黑盒的
46210编辑于 2025-11-13
来自专栏大模型应用
大模型应用：情感分析模型微调深度分析：从基础预测到性能优化.6
今天我们将从实践角度出发，由浅入深地探讨情感分析模型微调后的深度分析方法，从而能够掌握模型评估与优化的完整流程。二、情感分析模型微调1. 监控验证集性能：确保在验证集上评估模型，并根据验证集性能调整超参数。尝试不同的模型：如果当前模型表现不佳，可以尝试使用不同的预训练模型，例如在中文情感分析任务上表现较好的模型。性能指标可视化可视化是理解模型性能的最直观方式。通过多种图表，我们可以全面把握模型的优势和不足。这种深度分析为模型优化提供了明确方向，帮助我们构建更加可靠、鲁棒的情感分析系统。实际微调过程中我们要保障数据质量，高质量、有代表性的数据比复杂的模型架构更重要，同时我们要在生产环境中持续监控模型性能，及时发现性能衰减，优化调整时理解模型的预测行为是优化的第一步，需要关注正确率之外的置信度
35033编辑于 2026-02-03
来自专栏大模型应用
大模型应用：本地大模型部署中的Token效率优化与性能分析.9
引言在大模型应用日益普及的今天，对模型交互过程中Token消耗的深入理解和有效管理变得至关重要。 Token作为大模型处理文本的基本单位，不仅直接关系到模型的响应速度和质量，更影响着计算资源的消耗和使用成本。随着模型规模的不断扩大和应用场景的多样化，如何在不牺牲对话质量的前提下优化Token使用效率，已成为提升大模型应用经济性和实用性的关键问题。助理回复："我是通义千问，一个由开发的大语言模型。我致力于帮助用户解答问题、提供信息和执行各种任务。" ，确保系统在不同硬件环境下的可用性通过持续的技术迭代和优化，我们相信Token效率优化将在推动大语言模型普惠应用方面发挥越来越重要的作用。
52843编辑于 2026-02-06
来自专栏澜舟科技 NLP
大模型落地实践：同花顺大模型技术应用及优化
文内从业务角度介绍了大模型技术在同花顺业务上的应用以及未来探索的方向。众所周知，大模型参数量大，通用能力强，综合性能好。之前我们用常规模型来做的时候准确率最多到 59%，目前使用大模型，考虑到本文较长且性能要求较高，因此使用参数较少的 tinyBERT，准确率是 69.45%，后续还需要做更多优化工作。大模型的优化大量研究表明通过调整预训练任务、使用更多训练数据、使用领域语料等方式，可以对原始的大规模预训练模型做进一步优化，达到更好的效果。）任务，使得模型更好的学习句子之间的句对信息；更高效地利用硬件：我们整体用户量非常大，对话业务的日活达到百万级，资讯和研报抽取也是百万级别的，因此我们对于性能非常关注。总结大模型技术在同花顺业务中的应用基本都有比较好的通用性，并且带来了比较好的性能提升，我们也希望在医疗、法律、教育等领域的子公司业务中推广，同时和澜舟科技以及学术界的老师们合作，把大模型用得更好，谢谢大家
3K20编辑于 2022-08-11
来自专栏林德熙的博客
dotnet 性能优化利用哈希思想优化大对象集合相等判断性能
利用哈希的其中一个思想，相同的对象的哈希值相同，可以用来提升一些大对象集合的进行对象相等判断的性能。大对象的相等判断指的是有某些类型的相等判断需要用到对象的很多属性或字段进行参与判断逻辑才能判断两个对象是否相等，当这些大对象存放在集合里面，此时进行大量的相等判断将会因为需要有大量的属性或字段的判断而降低性能不要听着 100 个属性很惊讶，在 Word 里面可是按照 MB 计算的属性量哦在进行性能优化的时候，我考虑用上哈希的思想。思想就是将大对象的相等比较分为两步，第一步判断大对象的哈希值是否相等。在判断哈希之后再进行大对象原本的对象相等判断判断哈希值相当于只是判断一个 int 值而已，占用资源基本可以被忽略。因此可以在存在比较多不相同的对象的时候，可以提升对不相同对象的判断的性能从而提升集合的判断相等的性能以下是更详细的细节在制作对象的哈希值的时候，期望是将所有参与相等判断的属性和字段都加入到哈希值的创建中
51820发布于 2021-10-12
来自专栏老张的求知思考世界
详解性能测试三大模型
从我的实践经验来说，如果无法对系统和业务有足够的了解，没有较为精准的性能测试三大模型，则性能测试的结果无法对线上容量规划起到明显的参考价值。今天这篇文章算是性能测试知识的科普内容，我会聊聊在实际工作中开展性能测试，前期最核心的工作。即业务模型、流量模型和数据模型这三大模型，该如何评估和建立。在性能测试工作中，业务模型、流量模型和数据模型是至关重要且必须在项目中构建的，否则很可能导致测试的场景和实际差距很大，测试结果也无法为性能分析和优化提供足够有说服力的支撑。为了便于大家理解三大模型，我会以电商业务下单的场景来举例说明，如下图：业务模型大家可以将业务模型看作功能测试中的业务场景。；构建流量模型下面是之前我实际工作中一次双11大促时的流量模型构建案例，仅供参考。
58910编辑于 2024-10-28
来自专栏腾讯技术工程官方号的专栏
九大服务架构性能优化方式
常用的性能优化方法可以分为以下几种：性能优化九大方式：缓存性能优化，缓存为王，所以开始先介绍一下缓存。此外小到cpu的l1、l2、l3级cache，大到浏览器缓存都是为了提高性能，缓存也是进行服务性能优化的重要手段，使用缓存时需要考虑以下几点。随着数据量和并发量的越来越大，I/O成了redis的性能瓶颈点，因此在6.0版本引入了多线程模型。小到线程的并发处理，大到redis的集群，以及kafka的分topic分区都是通过多个client并行处理提高服务的读写性能。另外一种优化方式可以参考golang的GMP模型，将库存分成多份，分别加载到服务server的本地，这样多机之间在对库存变更的时候就避免了锁的竞争。
1.4K10编辑于 2024-08-19
来自专栏数据派THU
独家｜pytorch模型性能分析和优化
翻译：林立锟校对：zrx 本文约6700字，建议阅读10分钟本文介绍了pytorch模型性能分析和优化。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 照片由 Torsten Dederichs 拍摄，上传到 Unsplash 训练深度学习模型，尤其是大型模型，可能是一笔昂贵的开支。性能优化是我们降低成本的主要方法之一。而对于其他模型，调整到大的批次规模可能会更加困难，甚至不可能。请参阅上一篇文章，了解大批量训练所面临的一些挑战。正如我们在导言中强调的，要充分利用这些机会，性能优化必须成为开发工作流程中迭代和持续的一部分。总结在这篇文章中，我们展示了简单模型性能优化的巨大潜力。性能优化的内容远不止这些。在本篇文章的续篇中，我们将深入探讨 PyTorch 模型中非常常见的一个性能问题，即在 CPU 而不是 GPU 上运行了过多的计算量，而开发者往往对此并不知情。
1.6K20编辑于 2023-09-07
来自专栏每日一篇技术文章
SceneKit_模型压缩性能优化
第二步将需要压缩优化的模型文件复制到这个文件夹中去优化前的模型文件右击->显示简介查看大小注意看大小为2.2MB 第三步 cd 到model的父级目录 cd /Users/xujie /Desktop/模型手动输入父目录,当然也可以使用拖动的方式如下将父级文件拖到命令行工具里去第四步使用指令对model文件中的模型进行优化格式如下 /Applications/Xcode.app /Contents/Developer/usr/bin/copySceneKitAssets 模型文件 -o 优化后模型存储的目录 /Applications/Xcode.app/Contents /Developer/usr/bin/copySceneKitAssets model -o ~/Desktop/test 完成上述步骤优化后的模型就生成了,文件地址在~/Desktop/test 在桌面发现下面的文件文件里面是优化过的模型我们查看一下优化过的文件的简介内存占用降低了总结: 使用优化工具将模型从2.2M 优化到了 389K ，希望大家掌握这个小技巧,千万别告诉爸爸妈妈哦
59830编辑于 2022-03-11
来自专栏Linyb极客之路
JVM内存模型和性能优化（上篇）
JVM内存模型优点内置基于内存的并发模型：多线程机制同步锁Synchronization 大量线程安全型库包支持基于内存的并发机制，粒度灵活控制，灵活度高于数据库锁。多核并行计算模型基于线程的异步模型。 ---- JVM性能的人为问题关键原因是：没有正确处理好对象的生命周期。 JVM性能优化 1、内存微调优化 2、锁争夺微调: 多线程不变性单写原则 Actor Disrupotor 3、CPU使用率微调 4、I/O 微调 ---- 内存微调优化避免大的对象迁移到老生代。 CMS GC 并不执行压实，所以更快，碎片太多，没有空间放置大的需要连续空间的对象，“Concurrent mode failure”会发生。
1K41发布于 2018-12-29
来自专栏C++ 动态新闻推送
现代CPU性能分析与优化-性能分析方法- Roofline 性能模型
Roofline 性能模型是一个以吞吐量为导向的性能模型，在 HPC 领域广泛使用。它于 2009 年在加州大学伯克利分校开发。模型中的“roofline”表示应用程序的性能不能超过机器的能力。 Roofline 性能模型会考虑到这一点，可以在同一个图表上显示应用程序的多个函数和循环。算术强度 (AI) 是 FLOPS 和字节之间的比率，可以针对程序中的每个循环进行提取。 AI 是给定性能点的 X 轴上的值。传统的应用程序性能提升方式是充分利用机器的 SIMD 和多核能力。通常情况下，我们需要优化多个方面：向量化、内存、线程。使用 Roofline 模型优化性能的最终目标是向上移动这些点。向量化和线程化向上移动点，而通过增加算术强度优化内存访问则会将点向右移动，并且可能也会提高性能。总结来说，Roofline 性能模型可以帮助：识别性能瓶颈。指导软件优化。确定优化何时结束。相对于机器能力评估性能。
2.2K11编辑于 2024-08-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型测试：性能优化的5大实战策略

大模型测试性能优化：测试专家必看

零基础学AI大模型之嵌入模型性能优化

优化大语言模型性能与输出质量实用指南

Mxnet模型性能优化

从大模型性能优化到DeepSeek部署｜得物技术

大模型驱动的应用性能智能分析与优化

PyTorch模型性能分析与优化

性能优化-jvm的内存模型

大模型在网络性能优化与故障诊断中的应用

大模型应用：情感分析模型微调深度分析：从基础预测到性能优化.6

大模型应用：本地大模型部署中的Token效率优化与性能分析.9

大模型落地实践：同花顺大模型技术应用及优化

dotnet 性能优化利用哈希思想优化大对象集合相等判断性能

详解性能测试三大模型

九大服务架构性能优化方式

独家｜pytorch模型性能分析和优化

SceneKit_模型压缩性能优化

JVM内存模型和性能优化（上篇）

现代CPU性能分析与优化-性能分析方法- Roofline 性能模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型测试：性能优化的5大实战策略

大模型测试性能优化：测试专家必看

零基础学AI大模型之嵌入模型性能优化

优化大语言模型性能与输出质量实用指南

Mxnet模型性能优化

从大模型性能优化到DeepSeek部署｜得物技术

大模型驱动的应用性能智能分析与优化

PyTorch模型性能分析与优化

性能优化-jvm的内存模型

大模型在网络性能优化与故障诊断中的应用

大模型应用：情感分析模型微调深度分析：从基础预测到性能优化.6

大模型应用：本地大模型部署中的Token效率优化与性能分析.9

大模型落地实践：同花顺大模型技术应用及优化

dotnet 性能优化 利用哈希思想优化大对象集合相等判断性能

详解性能测试三大模型

九大服务架构性能优化方式

独家｜pytorch模型性能分析和优化

SceneKit_模型压缩性能优化

JVM内存模型和性能优化（上篇）

现代CPU性能分析与优化-性能分析方法- Roofline 性能模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

dotnet 性能优化利用哈希思想优化大对象集合相等判断性能