搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏啄木鸟软件测试
大模型测试性能优化：测试专家必看
引言随着ChatGLM、Qwen、DeepSeek、Llama系列等大语言模型（LLM）在金融、政务、医疗等关键场景加速落地，软件测试正面临前所未有的范式变革。更严峻的是——大模型测试本身正成为性能瓶颈：单次Prompt-Response耗时数百毫秒至数秒，批量评估动辄数小时；RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型，端到端延迟陡增；而A/B 如何让测试‘跑得快、判得准、控得住’？本文从工程化视角，为测试专家梳理大模型测试性能优化的四大核心路径。四、测试即代码（TaaC）：编排优化与资源感知调度大模型测试不再是‘点一下Run’的黑盒操作。结语大模型测试的性能优化，本质是测试思维的升维：从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。
26810编辑于 2026-03-04
来自专栏测试技术圈
LangSmith帮助测试大模型系统
LangSmith是评估大模型能力好坏的评估工具，能够量化评估基于大模型的系统的效果。LangSmith通过记录langchain构建的大模型应用的中间过程，从而能够更好的调整提示词等中间过程做优化。为了测试我们依托讯飞星火大模型创建一个继承LangChain的CustomLLMSparkLLM的类（代码在6.2.1章节），依托对应的类我创建了如下的测试代码。 #! router_chain, destination_chains=chain_map, default_chain=default_chain, verbose=True ) # 测试在项目下的列表中，我们多次执行LangChain构建的大模型的应用也可以做横向对比。每一次的处理和反馈的Trace都可以展示响应时间和使用的Token数。 LangSmith完成了跟踪LangChain构建应用的所有的中间过程，这也为验收或者测试LangChain构建的基于大模型的应用提供了有力的手段。
1.8K10编辑于 2024-04-30
来自专栏老张的求知思考世界
详解性能测试三大模型
从我的实践经验来说，如果无法对系统和业务有足够的了解，没有较为精准的性能测试三大模型，则性能测试的结果无法对线上容量规划起到明显的参考价值。今天这篇文章算是性能测试知识的科普内容，我会聊聊在实际工作中开展性能测试，前期最核心的工作。即业务模型、流量模型和数据模型这三大模型，该如何评估和建立。为了便于大家理解三大模型，我会以电商业务下单的场景来举例说明，如下图：业务模型大家可以将业务模型看作功能测试中的业务场景。；构建流量模型下面是之前我实际工作中一次双11大促时的流量模型构建案例，仅供参考。预估大促时的支付转化率为60%，则可得：大促峰值订单支付QPS为（200/40%）*60%*（200W/50W）=1200QPS。
59110编辑于 2024-10-28
来自专栏数据派THU
详解：7大经典回归模型
来源：csdn 深度学习爱好者本文约2900字，建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。什么是回归分析？ 4.它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的，即不具有多重共线性。 7.如果因变量是多类的话，则称它为多元逻辑回归。 3. Polynomial Regression多项式回归对于一个回归方程，如果自变量的指数大于1，那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。除了这7个最常用的回归技术，你也可以看看其他模型，如Bayesian、Ecological和Robust回归。如何正确选择回归模型？当你只知道一个或两个技术时，生活往往很简单。
1.7K41编辑于 2023-04-18
三大领域大语言模型安全基准测试
TRIDENT：金融、医疗和法律领域的大语言模型安全基准测试随着大语言模型（LLMs）在法律、金融和医疗等高风险领域的部署日益增多，系统评估其领域特定安全性和合规性变得至关重要。为填补这一空白，研究首先基于某机构医学伦理原则、某机构专业行为示范规则和某机构道德准则，定义了大语言模型的领域特定安全原则。在此基础上，推出了Trident-Bench基准测试，专门针对法律、金融和医疗领域的LLM安全性进行评估。研究在Trident-Bench上评估了19个通用型和领域专用模型，结果表明该基准能有效揭示关键安全漏洞：强大的通用模型（如某中心GPT、某中心Gemini）能够满足基本要求，而领域专用模型往往难以处理细微的伦理差异代码和基准测试将在以下网址发布：https://github.com/xxx
31100编辑于 2025-09-04
大语言模型基准测试框架解析
大语言模型基准测试框架解析某研究者近日在代码托管平台发布了针对大语言模型的新基准测试框架。该框架包含从实际与大语言模型对话记录中提取的近100项测试，涵盖以下技术场景：将Python函数转换为等效但更快的C函数解释压缩后的JavaScript代码功能识别数据编码格式（如uuencode编码）：LLMRun：向语言模型发送提示词ExtractCode：从模型输出提取代码块CRun/PythonRun：在隔离环境中执行代码SubstringEvaluator：验证输出包含预期字符串复杂测试场景框架支持多步骤交互测试：避免复杂的提示工程，测试原始问题解决能力可扩展性：允许用户轻松添加自定义测试用例结论该基准测试框架为实践者提供了评估大语言模型实用能力的工具，特别适用于：研究代码辅助能力评估编程任务解决能力测试特殊领域知识验证研究者强调该框架不适合学术基准使用，但鼓励开发者扩展测试用例以评估模型在特定领域的实用性能。
36310编辑于 2025-08-23
来自专栏啄木鸟软件测试
开源方案：大模型测试实战指南
引言：当大模型从实验室走向产线，测试不再是‘锦上添花’，而是‘安全底线’。更值得关注的是，头部企业正悄然转向开源测试工具链——不是因为预算限制，而是因其透明性、可审计性与快速迭代能力，恰好匹配大模型‘黑盒深、行为动态、场景泛化’的测试挑战。一、为什么传统测试方法在大模型面前集体失灵？二、四大开源利器：构建可落地的大模型测试流水线 1. 三、实战案例：用开源栈完成一次端到端大模型测试以某电商客服大模型升级为例： - 步骤1：用`Promptfoo`构建测试集——导入历史工单对话（500条），标注‘意图类别+预期响应类型+合规关键词’；
37710编辑于 2026-03-09
来自专栏啄木鸟软件测试
大模型测试团队如何成功转型？
而随着大语言模型（LLM）深度融入产品架构——从智能客服、代码补全到AI原生应用（AI-Native Apps），测试的边界正被彻底重构。 2023年Gartner报告指出，67%的头部科技企业已设立专门的大模型质量保障（ML-QA）小组；2024年微软Azure AI团队披露，其LLM服务上线前的测试周期中，传统功能测试占比不足30%，而提示鲁棒性验证这背后不是测试工作的缩减，而是测试范式的升维——从验证‘是否正确实现’，转向保障‘是否安全、可信、可控地涌现价值’。一、为什么传统测试方法论在大模型面前集体失灵？某政务大模型测试中，AI自动生成的‘惠民政策解读’虽语法完美，但将‘阶段性补贴’误读为‘永久性福利’，此类隐性逻辑谬误需领域专家交叉验证。结语：测试的终极使命从未改变大模型没有颠覆测试的本质，反而将其升华。测试从来不只是关于‘发现错误’，而是关于‘建立信任’——对技术边界的清醒认知，对用户期待的精准回应，对社会价值的坚定守护。
12810编辑于 2026-03-31
来自专栏啄木鸟软件测试
大模型测试：性能优化的5大实战策略
引言随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地，模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。这些并非个例，而是大模型测试进入深水区的典型信号：性能不是附加项，而是可信AI的第一道防线。一、明确性能基线：拒绝‘拍脑袋’指标大模型性能测试首要误区是套用小模型标准。二、分层注入式压测：从单卡到集群的穿透验证传统压力测试常止步于API层，而大模型性能瓶颈常藏于框架底层。结语大模型性能测试的本质，是构建‘可测量、可归因、可演进’的效能反馈闭环。未来，随着MoE架构普及与稀疏化推理兴起，性能测试将更强调‘动态负载感知’与‘专家知识嵌入’——唯有将测试左移至模型编译阶段（如Triton Kernel Profiling集成），才能真正驾驭千亿参数时代的效能挑战
19110编辑于 2026-03-31
来自专栏优测Utest
测试人员必看-做好自动化测试的7大技能
随着敏捷和DevOps等新时代项目开发方法逐渐取代旧的瀑布模型，测试需求在业界不断增长。测试人员现在正在与开发人员一起工作，自动化测试在许多方面极大地取代了手动测试。自动化测试人员的数量增长，也极大地增加了测试行业的竞争，要想在茫茫测试人员中脱颖而出，首先要掌握以下七大技能。（7）手动测试人员在测试应用程序时所花费的预期时间；（8）在上一个版本中是否有任何重要的bug没有得到修复，以及它将如何影响业务；（9）测试阶段需要完成的预期交付日期；（10）浏览器差异五、具备排除自动化工具故障的能力流行的测试自动化工具非常大且复杂，在你的项目开始使用它们之前，它需要测试人员对工具本身有详细的技术知识。六、具备使用测试管理工具的经验自动化测试的主要目的是降低整个测试过程的复杂度。如果你是一个自动化测试人员，你应该具备一些测试管理工具的经验。
2.8K00发布于 2019-12-31
来自专栏大模型应用
大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7
引言在大模型的应用中，参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同，大模型的生成参数更像是一组精密的调控旋钮，它们不改变模型的基础知识，而是影响模型如何思考和表达。理解这些参数的本质，不仅能够提升模型输出的质量，更是将大模型从玩具转变为工具的关键一步。今天我们将从理论基础到实践应用，全面解析大模型的核心参数体系，详细的介绍大模型推理中常用的参数项，并通过本地模型示例展示参数调整对模型效能的影响。常见参数项：max_length：生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """大模型参数测试器分步调优流程图五、总结大模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。
70632编辑于 2026-02-04
来自专栏AI技术应用
AI大模型的本地化测试
AI大模型本地化测试是确保模型在本地环境中能够正常运行、满足性能要求并符合预期功能的关键步骤。以下是AI大模型本地化测试的详细流程和方法。测试方法：使用标准测试数据集进行验证。对比模型输出与预期结果的差异。测试边界情况（如空输入、超长文本）。2.性能测试测试内容：评估模型的推理速度（延迟）和吞吐量。测试方法：持续运行模型，监控资源占用和错误日志。模拟高并发请求，测试系统的稳定性。4.兼容性测试测试内容：验证模型与本地硬件、操作系统和依赖库的兼容性。测试方法：在不同硬件配置和操作系统上运行模型。五、测试报告与优化1.测试报告：记录测试结果，包括功能、性能、稳定性和安全性数据。分析问题并提出改进建议。2.模型优化：根据测试结果调整模型参数或优化代码。使用模型压缩技术（如量化、剪枝）提升性能。 2.Llama本地化测试：测试Llama模型在本地设备上的推理性能。检查模型对多语言输入的处理能力。通过以上测试流程和方法，可以确保AI大模型在本地化部署后能够稳定、高效地运行，并满足实际应用需求。
67500编辑于 2025-03-08
人类在被大语言模型“反向图灵测试”
你在考校大模型？其实它在反向“试探”你的智能众所周知，图灵测试是检验人工智能模拟人类反应能力的经典方法，而目前有趣的一点是，在实际人与大语言模型交互过程中，大语言模型似乎在进行一种更为微妙的反向图灵测试，通过映射我们的反应来检验对话者的智能水平和提示质量有趣的是，这种通用能力正在大语言模型中逐步显现，但其实现形式与早期人工智能研究者的设想有所不同。大语言模型不仅展现出在各类语言任务中的多面性，还具备编程等跨领域能力。关于大语言模型是否具有智能的讨论，最终取决于我们如何定义“智能”。大语言模型LaMDA通过了阿尔卡斯设计的心智理论测试，而心智理论被认为是自我意识的重要标志之一。不过，也有不少人对此持谨慎怀疑态度。事实上，正如案例GPT 5.3的研究结果显示，ChatGPT已经能成功应对乔姆斯基提出的思维测试。然而，无论如何定义思维，仅凭语言都难以对其进行完整描述。
36011编辑于 2025-08-11
来自专栏老张的求知思考世界
性能测试知识科普(六)：三大模型
今天的这篇文章是性能测试知识科普的第六篇，我会聊聊在实际工作中开展性能测试，前期最核心的工作。即业务模型、流量模型和数据模型这三大模型，该如何评估和建立。在性能测试工作中，业务模型、流量模型和数据模型是至关重要且必须在项目中构建的，否则很可能导致测试的场景和实际差距很大，测试结果也无法为性能分析和优化提供足够有说服力的支撑。为了便于大家理解三大模型，我会以电商业务下单的场景来举例说明，如下图：业务模型大家可以将业务模型看作功能测试中的业务场景。；构建流量模型下面是之前我实际工作中一次双11大促时的流量模型构建案例，仅供参考。预估大促时的支付转化率为60%，则可得：大促峰值订单支付QPS为（200/40%）*60%*（200W/50W）=1200QPS。
1.6K20编辑于 2023-03-01
来自专栏GiantPandaCV
星辰AI大模型TeleChat-7B评测
前言受中电信 AI 科技有限公司的邀请，为他们近期开源的TeleChat-7B大模型做一个评测。最后，我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力，可以作为开发者来使用的一个不错的基础大模型。文学创作能力测试为了更加真实的观察模型的文学创作能力，这里不使用TeleChat-7B官方开源仓库提供的例子，而是使用我们自己的一些prompt来进行测试。总结总的来说，TeleChat-7B具有一定的文创能力和代码能力，对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在大模型幻觉，指令跟随能力一般以及回答有概率重复的问题。此外，TeleChat-7B在开源方面是相当有诚意的，将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的，如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告：https
67320编辑于 2024-02-22
大模型下半场：7个趋势判断
推理模型能力的持续提升，推动大模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了大模型下半场的新赛程。个人智能体潜力初步显现，行业应用渐次走深，开源开放日益成为大模型的核心竞争力组成。虽然去年以来，我国AI高端芯片企业数量和能力均有提升，华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片，但由于台积电暂停7nm产能供应及HBM禁令等限制，国产高端芯片的制造仍面临挑战受DeepSeek效应刺激，国内外大模型公司正加速推出下一代大模型，如OpenAI的基础大模型GPT-4.5，推理模型o3；Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7； OpenAI的o1在在美国数学邀请赛拿到接近满分成绩，在物理、生物和化学问题的基准测试上超越了博士水平的准确率。研究人员测试了8种具备实时搜索功能的AI搜索工具，发现有60%以上的新闻来源查询错误。大模型的幻觉问题，是伴随人工智能底层技术路径与生俱来的，和创新能力是一体两面的，难以仅仅依靠技术彻底解决。
59320编辑于 2025-04-02
来自专栏流川疯编写程序的艺术
《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战
评测对象本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。在具体实践中，我们提前基于模型的能力维度构建主观测试问题集合，并将不同模型对于同一问题的不同回复展现给受试者，收集受试者基于主观感受的评分。由于主观测试成本高昂，本方案同时也采用使用性能优异的大语言模拟人类进行主观打分。在实际评测中，本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 opencompass.readthedocs.io/zh-cn/latest/advanced_guides/subjective_evaluation.html 3.数据污染评估：禁止作弊，诚信考试数据污染评估简介数据污染是指本应用在下游测试任务中的数据出现在了大语言模型大海捞针测试（灵感来自 NeedleInAHaystack）是指通过将关键信息随机插入一段长文本的不同位置，形成大语言模型 (LLM) 的Prompt，通过测试大模型是否能从长文本中提取出关键信息，从而测试大模型的长文本信息提取能力的一种方法
76810编辑于 2024-07-01
来自专栏Datawhale专栏
《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！
Datawhale开源开源贡献：Datawhale self-llm团队前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。同时，本项目对本地硬件基本没有要求，全程都需要在云服务器上运行，AutoDL租一台3090服务器，每小时需要1.66元，一杯奶茶就可以租一块3090愉快的学习7个小时！理论上7小时就可以将本项目的所有教程全部跑通一遍（除全量微调外），一杯奶茶速通大模型，掌握开源大模型部署的核心科技。文章最后为什么要做这样一个开源项目？
1.6K21编辑于 2024-04-24
来自专栏muller的测试分享
人工智能，应该如何测试？（七）大模型客服系统测试
如何构建知识引擎首先我们现在处于一个大模型的时代，所以一个类似 GPT 这样的大模型加入到产品中在大厂已经是比较普遍的现状了，各个大厂都有训练自己的大模型。有 GPT 这样的大模型在，可以极大的提升对话机器人的回答质量。但我们上面也说了这样是不够的。对于专业领域的问答，需要有专业的知识库的建立。，它可能直接发回给大模型进行回答。又或者是通用检索类的，比如用户问现在苹果的股价是多少，这显然不能直接发给知识引擎和大模型，而是调用搜索引擎 API 来进行查询，当然这个查询结果很多时候要经过大模型的二次包装，这个我们后面再讲。如何针对这些模型进行测试可以看出对话机器人是由 N 多个模型组合在一起的系统。知识引擎也是由多个模型组合在一起才完成的内容检索。那么我们来看一下要如何测试这些模型。
89112编辑于 2024-04-07
来自专栏CKL的思考空间
大模型测试技术与实践（文末送书）
Part.1 大模型测试为什么“测不准”？ Part.3 双管齐下玩转大模型测试《大模型测试技术与实践》不仅深入探讨了大模型测试的独特挑战和机遇，还提出了将传统软件测试的原则和方法与 AI 系统的测试方法相结合的实践方案，双管齐下来确保大模型在各种应用场景中的可靠性最后结合大模型的智能化测试，介绍了从 AI 算法的智能化到大模型的智能化测试的转变，并通过实际的 RAG 实践，让读者体验大模型测试和用大模型进行测试的过程。这本书可以说是为大模型开发者、软件测试人员和 AI 爱好者量身打造的，提供了丰富的知识资源，激发起读者对大模型测试技术深入探索的兴趣。大模型测试告别“测不准”，把DeepSeek快速高效地跑起来，就看这本《大模型测试技术与实践》！
96310编辑于 2025-03-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型测试性能优化：测试专家必看

LangSmith帮助测试大模型系统

详解性能测试三大模型

详解：7大经典回归模型

三大领域大语言模型安全基准测试

大语言模型基准测试框架解析

开源方案：大模型测试实战指南

大模型测试团队如何成功转型？

大模型测试：性能优化的5大实战策略

测试人员必看-做好自动化测试的7大技能

大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7

AI大模型的本地化测试

人类在被大语言模型“反向图灵测试”

性能测试知识科普(六)：三大模型

星辰AI大模型TeleChat-7B评测

大模型下半场：7个趋势判断

《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战

《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！

人工智能，应该如何测试？（七）大模型客服系统测试

大模型测试技术与实践（文末送书）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型测试性能优化：测试专家必看

LangSmith帮助测试大模型系统

详解性能测试三大模型

详解：7大经典回归模型

三大领域大语言模型安全基准测试

大语言模型基准测试框架解析

开源方案：大模型测试实战指南

大模型测试团队如何成功转型？

大模型测试：性能优化的5大实战策略

测试人员必看-做好自动化测试的7大技能

大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7

AI大模型的本地化测试

人类在被大语言模型“反向图灵测试”

性能测试知识科普(六)：三大模型

星辰AI大模型TeleChat-7B评测

大模型下半场：7个趋势判断

《书生·浦语大模型实战营》第7课 学习笔记：OpenCompass 大模型评测实战

《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！

人工智能，应该如何测试？（七）大模型客服系统测试

大模型测试技术与实践（文末送书）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战