首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型&AIGC

    6模型微调技术

    为了展示适配器的有效性,我们将最近提出的BERT Transformer模型迁移到了26个不同的文本分类任务中,包括GLUE基准测试。 在GLUE基准测试中,我们在仅为每个任务增加3.6%参数的情况下,实现了与完整微调性能相差不到0.4%的结果。相比之下,微调则需要对每个任务的100%参数进行训练。 input和target,则使用原始的input embedding(5) 使用方式离散和连续template token混合时,显示地插入一下anchor(离散的token)有助于template的优化(6) ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 在wikiSQL/MultiNLI数据集上测试得出结论:小的γ值,能达到较好好的效果(一般为4-8)(7) 特点优点:用于低资源的场景。也就是硬件设备资源有限的情况下。更新参数量少。

    2.6K00编辑于 2025-05-08
  • 来自专栏啄木鸟软件测试

    模型测试性能优化:测试专家必看

    引言 随着ChatGLM、Qwen、DeepSeek、Llama系列等语言模型(LLM)在金融、政务、医疗等关键场景加速落地,软件测试正面临前所未有的范式变革。 更严峻的是——模型测试本身正成为性能瓶颈:单次Prompt-Response耗时数百毫秒至数秒,批量评估动辄数小时;RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型,端到端延迟陡增;而A/B 如何让测试‘跑得快、判得准、控得住’?本文从工程化视角,为测试专家梳理模型测试性能优化的四核心路径。 四、测试即代码(TaaC):编排优化与资源感知调度 模型测试不再是‘点一下Run’的黑盒操作。 结语 模型测试的性能优化,本质是测试思维的升维:从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。

    26810编辑于 2026-03-04
  • 来自专栏测试技术圈

    LangSmith帮助测试模型系统

    LangSmith是评估模型能力好坏的评估工具,能够量化评估基于模型的系统的效果。LangSmith通过记录langchain构建的模型应用的中间过程,从而能够更好的调整提示词等中间过程做优化。 为了测试我们依托讯飞星火大模型创建一个继承LangChain的CustomLLMSparkLLM的类(代码在6.2.1章节),依托对应的类我创建了如下的测试代码。 #! router_chain, destination_chains=chain_map, default_chain=default_chain, verbose=True ) # 测试 在项目下的列表中,我们多次执行LangChain构建的模型的应用也可以做横向对比。 每一次的处理和反馈的Trace都可以展示响应时间和使用的Token数。 LangSmith完成了跟踪LangChain构建应用的所有的中间过程,这也为验收或者测试LangChain构建的基于模型的应用提供了有力的手段。

    1.8K10编辑于 2024-04-30
  • 来自专栏老张的求知思考世界

    详解性能测试模型

    从我的实践经验来说,如果无法对系统和业务有足够的了解,没有较为精准的性能测试模型,则性能测试的结果无法对线上容量规划起到明显的参考价值。 今天这篇文章算是性能测试知识的科普内容,我会聊聊在实际工作中开展性能测试,前期最核心的工作。即业务模型、流量模型和数据模型这三模型,该如何评估和建立。 为了便于大家理解三模型,我会以电商业务下单的场景来举例说明,如下图: 业务模型 大家可以将业务模型看作功能测试中的业务场景。 ; 构建流量模型 下面是之前我实际工作中一次双11促时的流量模型构建案例,仅供参考。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。

    59110编辑于 2024-10-28
  • 来自专栏6G

    6G,AI , 与模型?

    6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI模型,同时使网络能够支持 AI 模型的训练和服务。 另外,从小模型模型,生产效率跨越式提升基础通用模型具有泛化性,网络智能化将从用例驱动转变为能力驱动,迅速降低应用开发门槛,加速 AI 工程化、规模化落地。 6G 网络将承担数据采集、预处理等数据服务,为云AI训练提供更好的支持。此外,6G 网络的分布式部署将使得 AI 模型更靠近用户侧,从而在时延方面具有潜在优势。 在数据获取和处理方面,与 ChatGPT 不同,网络中存在大量结构化数据,且网络不同问题间的共性不清晰,网络 AI 模型面临较大挑战。6G 网络面临如何有效采集适合AI模型训练的数据的挑战。 而在构建 AI 模型的路径上,需要分阶段探索,从离线小规模模型开始,逐步过渡到实时大规模模型,最终实现统一的网络 AI 模型。 本文摘自于中国移动的“6G内生AI架构及AI模”汇报材料。

    40810编辑于 2024-04-24
  • 领域语言模型安全基准测试

    TRIDENT:金融、医疗和法律领域的语言模型安全基准测试随着语言模型(LLMs)在法律、金融和医疗等高风险领域的部署日益增多,系统评估其领域特定安全性和合规性变得至关重要。 为填补这一空白,研究首先基于某机构医学伦理原则、某机构专业行为示范规则和某机构道德准则,定义了语言模型的领域特定安全原则。 在此基础上,推出了Trident-Bench基准测试,专门针对法律、金融和医疗领域的LLM安全性进行评估。 研究在Trident-Bench上评估了19个通用型和领域专用模型,结果表明该基准能有效揭示关键安全漏洞:强大的通用模型(如某中心GPT、某中心Gemini)能够满足基本要求,而领域专用模型往往难以处理细微的伦理差异 代码和基准测试将在以下网址发布:https://github.com/xxx

    31100编辑于 2025-09-04
  • 模型的2025:6个关键洞察

    以下为卡帕西年度回顾全文:《2025年语言模型年度回顾》2025年是语言模型领域大步跨越且充满变数的一年。 此外,可验证奖励强化学习还带来了全新的调节维度(及相关扩展定律):通过生成更长的推理轨迹、增加模型“思考时间”,可灵活调控测试阶段的计算量,进而实现能力提升。 与此相关的是,2025年我对各类基准测试(Benchmarks)彻底失去了兴趣与信任。 核心问题在于,基准测试的构建逻辑几乎都基于“可验证环境”,因此极易被可验证奖励的强化学习训练或合成数据生成等方式“攻击”。 在典型的“刷榜”过程中,各实验室必然会在基准测试对应的特征空间附近构建微型训练环境,培育出精准覆盖测试要点的“智能锯齿”。如今,“针对测试集进行定向训练”已成为一种新型技术操作。

    57910编辑于 2025-12-24
  • 语言模型基准测试框架解析

    语言模型基准测试框架解析某研究者近日在代码托管平台发布了针对语言模型的新基准测试框架。 该框架包含从实际与语言模型对话记录中提取的近100项测试,涵盖以下技术场景:将Python函数转换为等效但更快的C函数解释压缩后的JavaScript代码功能识别数据编码格式(如uuencode编码) :LLMRun:向语言模型发送提示词ExtractCode:从模型输出提取代码块CRun/PythonRun:在隔离环境中执行代码SubstringEvaluator:验证输出包含预期字符串复杂测试场景框架支持多步骤交互测试 :避免复杂的提示工程,测试原始问题解决能力可扩展性:允许用户轻松添加自定义测试用例结论该基准测试框架为实践者提供了评估语言模型实用能力的工具,特别适用于:研究代码辅助能力评估编程任务解决能力测试特殊领域知识验证研究者强调该框架不适合学术基准使用 ,但鼓励开发者扩展测试用例以评估模型在特定领域的实用性能。

    36310编辑于 2025-08-23
  • 来自专栏啄木鸟软件测试

    开源方案:模型测试实战指南

    引言:当模型从实验室走向产线,测试不再是‘锦上添花’,而是‘安全底线’。 一、为什么传统测试方法在模型面前集体失灵? 二、四开源利器:构建可落地的模型测试流水线 1. 三、实战案例:用开源栈完成一次端到端模型测试 以某电商客服模型升级为例: - 步骤1:用`Promptfoo`构建测试集——导入历史工单对话(500条),标注‘意图类别+预期响应类型+合规关键词’; 四、避坑指南:开源不等于零成本 - 模型依赖陷阱:DeepEval默认使用`all-MiniLM-L6-v2`做嵌入,但在法律文本场景下F1仅0.61,切换为`bge-small-zh`后提升至0.89

    37710编辑于 2026-03-09
  • 来自专栏啄木鸟软件测试

    模型测试团队如何成功转型?

    而随着语言模型(LLM)深度融入产品架构——从智能客服、代码补全到AI原生应用(AI-Native Apps),测试的边界正被彻底重构。 2023年Gartner报告指出,67%的头部科技企业已设立专门的模型质量保障(ML-QA)小组;2024年微软Azure AI团队披露,其LLM服务上线前的测试周期中,传统功能测试占比不足30%,而提示鲁棒性验证 这背后不是测试工作的缩减,而是测试范式的升维——从验证‘是否正确实现’,转向保障‘是否安全、可信、可控地涌现价值’。 一、为什么传统测试方法论在模型面前集体失灵? 某政务模型测试中,AI自动生成的‘惠民政策解读’虽语法完美,但将‘阶段性补贴’误读为‘永久性福利’,此类隐性逻辑谬误需领域专家交叉验证。 结语:测试的终极使命从未改变 模型没有颠覆测试的本质,反而将其升华。测试从来不只是关于‘发现错误’,而是关于‘建立信任’——对技术边界的清醒认知,对用户期待的精准回应,对社会价值的坚定守护。

    12810编辑于 2026-03-31
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。 未来,随着MoE架构普及与稀疏化推理兴起,性能测试将更强调‘动态负载感知’与‘专家知识嵌入’——唯有将测试左移至模型编译阶段(如Triton Kernel Profiling集成),才能真正驾驭千亿参数时代的效能挑战

    19110编辑于 2026-03-31
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(6)

    中小型公司模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的模型体系已经非常丰富 对话模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。

    29810编辑于 2024-09-10
  • 来自专栏猫头虎博客专区

    ChatGLM-6B 模型的前世今生

    ChatGLM-6B 开源模型旨在与开源社区一起推动模型技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务 : 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。 Windows 测试环境 gcc 版本为 TDM-GCC 10.3.0, Linux 为 gcc 11.3.0。在 MacOS 上请参考 Q1。 将模型下载到本地之后,将以上代码中的 THUDM/chatglm-6b 替换为你本地的 chatglm-6b 文件夹的路径,即可从本地加载模型。 Optional 模型的实现仍然处在变动中。 模型量化会带来一定的性能损失,经过测试,ChatGLM-6B 在 4-bit 量化下仍然能够进行自然流畅的生成。

    1.4K10编辑于 2024-04-08
  • 来自专栏AI技术应用

    AI模型的本地化测试

    AI模型本地化测试是确保模型在本地环境中能够正常运行、满足性能要求并符合预期功能的关键步骤。以下是AI模型本地化测试的详细流程和方法。 测试方法:使用标准测试数据集进行验证。对比模型输出与预期结果的差异。测试边界情况(如空输入、超长文本)。2.性能测试测试内容:评估模型的推理速度(延迟)和吞吐量。 测试方法:持续运行模型,监控资源占用和错误日志。模拟高并发请求,测试系统的稳定性。4.兼容性测试测试内容:验证模型与本地硬件、操作系统和依赖库的兼容性。测试方法:在不同硬件配置和操作系统上运行模型。 五、测试报告与优化1.测试报告:记录测试结果,包括功能、性能、稳定性和安全性数据。分析问题并提出改进建议。2.模型优化:根据测试结果调整模型参数或优化代码。使用模型压缩技术(如量化、剪枝)提升性能。 2.Llama本地化测试测试Llama模型在本地设备上的推理性能。检查模型对多语言输入的处理能力。通过以上测试流程和方法,可以确保AI模型在本地化部署后能够稳定、高效地运行,并满足实际应用需求。

    67500编辑于 2025-03-08
  • 来自专栏MavenTalk

    ChatGLM-6B模型微调实战总结

    上篇我们已经具备了 ChatGLM-6B 初步的运行环境,这为实现完全属于自己的模型奠定了基础(快速部署ChatGLM-6B模型实战总结),接下来将针对模型进行微调,以便让它真正成为一个定制化智能助手 在这个过程中,我将直接使用官方的P-Tuning v2工具对ChatGLM-6B模型进行参数微调。 /THUDM/chatglm-6b \ # 加载模型文件地址 --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存训练模型文件地址 在实践中,我们使用了 ChatGLM-6B 模型,并经历了模型的训练和推理过程。训练模型消耗了相当多的时间,但也让我们体会到了模型训练的复杂性和挑战性。 —扩 展 阅 读— 正在发生或即将发生的AI模型应用,立帖为证 ChatGPT、Claude和Bard,三足鼎立之势已成 WPS Office AI实战总结,智能化办公时代已来 你对 ChatGPT

    4.2K43编辑于 2023-09-06
  • 人类在被语言模型“反向图灵测试

    你在考校模型? 其实它在反向“试探”你的智能众所周知,图灵测试是检验人工智能模拟人类反应能力的经典方法,而目前有趣的一点是,在实际人与语言模型交互过程中,语言模型似乎在进行一种更为微妙的反向图灵测试,通过映射我们的反应来检验对话者的智能水平和提示质量 有趣的是,这种通用能力正在语言模型中逐步显现,但其实现形式与早期人工智能研究者的设想有所不同。语言模型不仅展现出在各类语言任务中的多面性,还具备编程等跨领域能力。 关于语言模型是否具有智能的讨论,最终取决于我们如何定义“智能”。语言模型LaMDA通过了阿尔卡斯设计的心智理论测试,而心智理论被认为是自我意识的重要标志之一。不过,也有不少人对此持谨慎怀疑态度。 事实上,正如案例GPT 5.3的研究结果显示,ChatGPT已经能成功应对乔姆斯基提出的思维测试。然而,无论如何定义思维,仅凭语言都难以对其进行完整描述。

    36011编辑于 2025-08-11
  • 来自专栏老张的求知思考世界

    性能测试知识科普(六):三模型

    今天的这篇文章是性能测试知识科普的第六篇,我会聊聊在实际工作中开展性能测试,前期最核心的工作。即业务模型、流量模型和数据模型这三模型,该如何评估和建立。 在性能测试工作中,业务模型、流量模型和数据模型是至关重要且必须在项目中构建的,否则很可能导致测试的场景和实际差距很大,测试结果也无法为性能分析和优化提供足够有说服力的支撑。 为了便于大家理解三模型,我会以电商业务下单的场景来举例说明,如下图: 业务模型 大家可以将业务模型看作功能测试中的业务场景。 ; 构建流量模型 下面是之前我实际工作中一次双11促时的流量模型构建案例,仅供参考。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。

    1.6K20编辑于 2023-03-01
  • 来自专栏muller的测试分享

    人工智能,应该如何测试?(七)模型客服系统测试

    如何构建知识引擎首先我们现在处于一个模型的时代, 所以一个类似 GPT 这样的模型加入到产品中在大厂已经是比较普遍的现状了, 各个大厂都有训练自己的模型。 有 GPT 这样的模型在,可以极大的提升对话机器人的回答质量。 但我们上面也说了这样是不够的。 对于专业领域的问答, 需要有专业的知识库的建立。 我们可以用类似下面的形式表达: 假设职业这一列一共有 100 个值, 假设教师在编号 6 这个位置上,编号 6 所在位置 ide 值就是 1,其他的值都是 0,我们以这个向量来代表教师这个特征. ,它可能直接发回给模型进行回答。 如何针对这些模型进行测试可以看出对话机器人是由 N 多个模型组合在一起的系统。 知识引擎也是由多个模型组合在一起才完成的内容检索。 那么我们来看一下要如何测试这些模型

    89112编辑于 2024-04-07
  • 来自专栏CKL的思考空间

    模型测试技术与实践(文末送书)

    Part.1 模型测试为什么“测不准”? Part.3 双管齐下玩转模型测试模型测试技术与实践》不仅深入探讨了模型测试的独特挑战和机遇,还提出了将传统软件测试的原则和方法与 AI 系统的测试方法相结合的实践方案,双管齐下来确保模型在各种应用场景中的可靠性 ▲AI道德测试用例的6个方面 提示词工程在模型软件测试中可以起到重要作用,书中介绍了提示词工程的概念和设计方法,以及如何通过提示词工程利用模型完成测试工作,提高测试效率和质量。 最后结合模型的智能化测试,介绍了从 AI 算法的智能化到模型的智能化测试的转变,并通过实际的 RAG 实践,让读者体验模型测试和用模型进行测试的过程。 模型测试告别“测不准”,把DeepSeek快速高效地跑起来,就看这本《模型测试技术与实践》!

    96310编辑于 2025-03-11
  • 来自专栏MavenTalk

    快速部署ChatGLM-6B模型实战总结

    近期,IT界掀起了模型的热潮,各种百模争霸的局面出现。 作为这些产品的忠实测试者之一,我同时也尝试过这些产品的 API 接口,与微信对接,实现了微信聊天机器人。 然而,当开源的模型 ChatGLM 面世时,我却遇到了一些困扰,但幸运的是,腾讯云给了我一个难得的机会。 下载模型文件 https://github.com/THUDM/ChatGLM-6B 官方网站 从ChatGLM的官方库中下载,将模型文件我放到工程的 ChatGLM-6B/THUDM 目录下面。 huggingface.co/THUDM/chatglm-6b 模型文件比较大(25G),这里下载需要的时间很长,请耐心等待,以下是目录下载后模型目录下的文件: 测试 终端运行 Demo 进入ChatGLM

    1.9K20编辑于 2023-09-06
领券