首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏韩曙亮的移动开发专栏

    【AI 模型】Meta Llama 3 模型 ( Llama 3 模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3 模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 模型 ; 一 、Meta Llama 3 模型安装 1、Llama 3 模型简介 Llama 3 模型 是 Meta 公司 发布的 模型 , Meta 公司 就是 Facebook ; Llama 3 模型 Llama3 模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 模型使用 1、Llama 3 模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 模型离线使用 Llama 3 模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 模型 在 断网后也可以使用 , 下面是断开网络后

    1.7K12编辑于 2024-08-09
  • 来自专栏啄木鸟软件测试

    模型测试性能优化:测试专家必看

    更严峻的是——模型测试本身正成为性能瓶颈:单次Prompt-Response耗时数百毫秒至数秒,批量评估动辄数小时;RAG流水线需反复调用嵌入模型+向量检索+重排序+生成模型,端到端延迟陡增;而A/B 如何让测试‘跑得快、判得准、控得住’?本文从工程化视角,为测试专家梳理模型测试性能优化的四核心路径。 某政务模型项目采用此机制后,对抗测试中相同攻击prompt的重复执行耗时下降91%,且发现3个因Tokenizer升级引发的意外截断缺陷。 四、测试即代码(TaaC):编排优化与资源感知调度 模型测试不再是‘点一下Run’的黑盒操作。 结语 模型测试的性能优化,本质是测试思维的升维:从‘验证输出是否正确’走向‘验证系统是否可持续交付高质量输出’。

    26810编辑于 2026-03-04
  • 来自专栏测试技术圈

    LangSmith帮助测试模型系统

    LangSmith是评估模型能力好坏的评估工具,能够量化评估基于模型的系统的效果。LangSmith通过记录langchain构建的模型应用的中间过程,从而能够更好的调整提示词等中间过程做优化。 为了测试我们依托讯飞星火大模型创建一个继承LangChain的CustomLLMSparkLLM的类(代码在6.2.1章节),依托对应的类我创建了如下的测试代码。 #! os.environ['LANGCHAIN_API_KEY']="ls__626de75e47214de3a9b73ea801774183" os.environ['LANGCHAIN_ENDPOINT 在项目下的列表中,我们多次执行LangChain构建的模型的应用也可以做横向对比。 每一次的处理和反馈的Trace都可以展示响应时间和使用的Token数。 LangSmith完成了跟踪LangChain构建应用的所有的中间过程,这也为验收或者测试LangChain构建的基于模型的应用提供了有力的手段。

    1.8K10编辑于 2024-04-30
  • 来自专栏老张的求知思考世界

    详解性能测试模型

    从我的实践经验来说,如果无法对系统和业务有足够的了解,没有较为精准的性能测试模型,则性能测试的结果无法对线上容量规划起到明显的参考价值。 今天这篇文章算是性能测试知识的科普内容,我会聊聊在实际工作中开展性能测试,前期最核心的工作。即业务模型、流量模型和数据模型这三模型,该如何评估和建立。 为了便于大家理解三模型,我会以电商业务下单的场景来举例说明,如下图: 业务模型 大家可以将业务模型看作功能测试中的业务场景。 ; 构建流量模型 下面是之前我实际工作中一次双11促时的流量模型构建案例,仅供参考。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。

    59110编辑于 2024-10-28
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的模型? 它支持各种LLM,包括Llama 3、Mistral和Gemma。提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。 系统下安装也比较方便,双击打开 install安装完成没有提示,我们打开一个终端,本文以Windows PowerShell为例,大家也可以使用其他的:现在Ollama已经安装完了,我们需要在终端中输入下方命令运行一个语言模型进行测试

    6.3K33编辑于 2025-02-06
  • 领域语言模型安全基准测试

    TRIDENT:金融、医疗和法律领域的语言模型安全基准测试随着语言模型(LLMs)在法律、金融和医疗等高风险领域的部署日益增多,系统评估其领域特定安全性和合规性变得至关重要。 为填补这一空白,研究首先基于某机构医学伦理原则、某机构专业行为示范规则和某机构道德准则,定义了语言模型的领域特定安全原则。 在此基础上,推出了Trident-Bench基准测试,专门针对法律、金融和医疗领域的LLM安全性进行评估。 研究在Trident-Bench上评估了19个通用型和领域专用模型,结果表明该基准能有效揭示关键安全漏洞:强大的通用模型(如某中心GPT、某中心Gemini)能够满足基本要求,而领域专用模型往往难以处理细微的伦理差异 代码和基准测试将在以下网址发布:https://github.com/xxx

    31100编辑于 2025-09-04
  • 语言模型基准测试框架解析

    语言模型基准测试框架解析某研究者近日在代码托管平台发布了针对语言模型的新基准测试框架。 该框架包含从实际与语言模型对话记录中提取的近100项测试,涵盖以下技术场景:将Python函数转换为等效但更快的C函数解释压缩后的JavaScript代码功能识别数据编码格式(如uuencode编码) :LLMRun:向语言模型发送提示词ExtractCode:从模型输出提取代码块CRun/PythonRun:在隔离环境中执行代码SubstringEvaluator:验证输出包含预期字符串复杂测试场景框架支持多步骤交互测试 :避免复杂的提示工程,测试原始问题解决能力可扩展性:允许用户轻松添加自定义测试用例结论该基准测试框架为实践者提供了评估语言模型实用能力的工具,特别适用于:研究代码辅助能力评估编程任务解决能力测试特殊领域知识验证研究者强调该框架不适合学术基准使用 ,但鼓励开发者扩展测试用例以评估模型在特定领域的实用性能。

    36310编辑于 2025-08-23
  • 来自专栏啄木鸟软件测试

    开源方案:模型测试实战指南

    引言:当模型从实验室走向产线,测试不再是‘锦上添花’,而是‘安全底线’。 一、为什么传统测试方法在模型面前集体失灵? 二、四开源利器:构建可落地的模型测试流水线 1. 三、实战案例:用开源栈完成一次端到端模型测试 以某电商客服模型升级为例: - 步骤1:用`Promptfoo`构建测试集——导入历史工单对话(500条),标注‘意图类别+预期响应类型+合规关键词’; (注:文中所有工具均为MIT/Apache 2.0协议开源,GitHub Star数均超5k,最新稳定版均已支持Llama 3、Qwen2、Phi-3等主流模型。)

    37710编辑于 2026-03-09
  • 来自专栏啄木鸟软件测试

    模型测试团队如何成功转型?

    而随着语言模型(LLM)深度融入产品架构——从智能客服、代码补全到AI原生应用(AI-Native Apps),测试的边界正被彻底重构。 这背后不是测试工作的缩减,而是测试范式的升维——从验证‘是否正确实现’,转向保障‘是否安全、可信、可控地涌现价值’。 一、为什么传统测试方法论在模型面前集体失灵? 3. 角色进化:从‘测试员’到‘AI质量产品经理’ 顶尖团队已出现新岗位:AI QA Strategist(AI质量策略师)。 某政务模型测试中,AI自动生成的‘惠民政策解读’虽语法完美,但将‘阶段性补贴’误读为‘永久性福利’,此类隐性逻辑谬误需领域专家交叉验证。 结语:测试的终极使命从未改变 模型没有颠覆测试的本质,反而将其升华。测试从来不只是关于‘发现错误’,而是关于‘建立信任’——对技术边界的清醒认知,对用户期待的精准回应,对社会价值的坚定守护。

    12810编辑于 2026-03-31
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 FlashAttention-2),某电商客服系统通过切换策略将P99延迟降低53%; 3)CUDA层:使用Nsight Compute捕获kernel级瓶颈,曾定位到某自研算子因未启用Tensor 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    19110编辑于 2026-03-31
  • 来自专栏听雨堂

    测试数据——猜想验证(3

    有数据,不妨测试一下,非常有趣: 1.各个信用等级的逾期率 其他的都比较符合预期,但A的偏高,我也很纳闷,把数据调出来,从高到低排是这样的: 借的量巨大,一旦逾期,在整个逾期率的计算中必然拖累整体。 如限制借款上限为6000,则逾期率就降低很多: 2.性别,女人比男人靠谱 3.借期,6月和12月是主体,但6月明显逾期率低。是不是借期短就意味着借的时候对还款就心中有数呢?

    1.2K100发布于 2018-01-23
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。 在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    76020编辑于 2023-08-28
  • 第13章 模型在计算机视觉上的测试应用-3

    13.5.2 SuperCLUE-Video评测标准 SuperCLUE-Video[14]是为中文视频生成模型设计的评测基准,旨在提供标准化的测试流程和评估指标,帮助研究人员和开发者更好地评估和比较不同模型的性能 13.6 总结 在本章,我们首先以ChatGPT和AIGC文生图为例,讲解如何将模型应用到我们前面章节介绍的AI模型测试中。 模型的技术更新速度令人瞩目,从2018年的GPT-1到2020年的GPT-3模型的参数量从1.1亿个增长到了1750亿个,2年的时间内增长了1000多倍。 在中国,2023~2024年也迎来的“百模大战”的时代,基础模型不断推出,比如:百度的“文心”模型,阿里的“通义”模型,腾讯的“混元”模型,华为的“盘古”模型,以及来自清华的ChatGLM等。 在单模态通用模型的基础上,各个行业的垂直模型也在不断涌现,如:教育模型、工业大模型、医疗模型、金融模型、代码模型等。同时,多模态模型正成为当前模型的最新的演进方向。

    79710编辑于 2025-04-15
  • 来自专栏AI技术应用

    AI模型的本地化测试

    AI模型本地化测试是确保模型在本地环境中能够正常运行、满足性能要求并符合预期功能的关键步骤。以下是AI模型本地化测试的详细流程和方法。 3.测试数据:准备与任务相关的测试数据集。确保数据集覆盖各种边界情况和异常输入。三、测试内容与方法1.功能测试测试内容:验证模型是否能完成预期任务(如文本生成、分类、翻译等)。 测试方法:使用性能测试工具(如TensorRT、ONNX Runtime)进行基准测试。模拟高负载场景,测试模型的并发处理能力。3.稳定性测试测试内容:验证模型在长时间运行和高负载下的稳定性。 Locust:分布式负载测试工具。3.安全测试工具:Adversarial Robustness Toolbox:检测模型对抗样本的鲁棒性。OWASP ZAP:检查数据传输和存储的安全性。 2.Llama本地化测试测试Llama模型在本地设备上的推理性能。检查模型对多语言输入的处理能力。通过以上测试流程和方法,可以确保AI模型在本地化部署后能够稳定、高效地运行,并满足实际应用需求。

    67500编辑于 2025-03-08
  • 人类在被语言模型“反向图灵测试

    你在考校模型? 其实它在反向“试探”你的智能众所周知,图灵测试是检验人工智能模拟人类反应能力的经典方法,而目前有趣的一点是,在实际人与语言模型交互过程中,语言模型似乎在进行一种更为微妙的反向图灵测试,通过映射我们的反应来检验对话者的智能水平和提示质量 有趣的是,这种通用能力正在语言模型中逐步显现,但其实现形式与早期人工智能研究者的设想有所不同。语言模型不仅展现出在各类语言任务中的多面性,还具备编程等跨领域能力。 关于语言模型是否具有智能的讨论,最终取决于我们如何定义“智能”。语言模型LaMDA通过了阿尔卡斯设计的心智理论测试,而心智理论被认为是自我意识的重要标志之一。不过,也有不少人对此持谨慎怀疑态度。 事实上,正如案例GPT 5.3的研究结果显示,ChatGPT已经能成功应对乔姆斯基提出的思维测试。然而,无论如何定义思维,仅凭语言都难以对其进行完整描述。

    36011编辑于 2025-08-11
  • 来自专栏老张的求知思考世界

    性能测试知识科普(六):三模型

    今天的这篇文章是性能测试知识科普的第六篇,我会聊聊在实际工作中开展性能测试,前期最核心的工作。即业务模型、流量模型和数据模型这三模型,该如何评估和建立。 在性能测试工作中,业务模型、流量模型和数据模型是至关重要且必须在项目中构建的,否则很可能导致测试的场景和实际差距很大,测试结果也无法为性能分析和优化提供足够有说服力的支撑。 为了便于大家理解三模型,我会以电商业务下单的场景来举例说明,如下图: 业务模型 大家可以将业务模型看作功能测试中的业务场景。 ; 构建流量模型 下面是之前我实际工作中一次双11促时的流量模型构建案例,仅供参考。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。

    1.6K20编辑于 2023-03-01
  • 来自专栏openclaw系列

    OpenClaw怎么换模型3步免费切换各种模型配置教程

    一句话总结:OpenClaw 本身不内置任何模型,而是通过灵活的配置机制对接各类模型服务。更换模型只需三步:选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。 第一章:核心原理——OpenClaw 如何对接模型?1.1 为什么需要更换模型?OpenClaw 的核心价值在于“连接”——连接模型的思考能力与电脑的真实操作权限。 hunyuan-turbo# 临时切换单次对话(不改变默认)openclaw chat --model yuanbao/hunyuan-turbo --prompt "测试"第二章:云端模型配置——接入主流模型 URL修改模型 API 地址5.3 快速测试模型是否生效# 测试当前模型openclaw chat --prompt "你是什么模型? Q3:本地模型响应太慢怎么办?

    11.7K43编辑于 2026-03-28
  • 来自专栏muller的测试分享

    人工智能,应该如何测试?(七)模型客服系统测试

    如何构建知识引擎首先我们现在处于一个模型的时代, 所以一个类似 GPT 这样的模型加入到产品中在大厂已经是比较普遍的现状了, 各个大厂都有训练自己的模型。 有 GPT 这样的模型在,可以极大的提升对话机器人的回答质量。 但我们上面也说了这样是不够的。 对于专业领域的问答, 需要有专业的知识库的建立。 ,它可能直接发回给模型进行回答。 问题 3:奥威尔的作品主要关注哪些方面? 答案 3:对极权主义和批判社会不公的关注。问题 4:《巴黎与伦敦的下层社会》和《向加泰罗尼亚致敬》是奥威尔的哪类作品? 答案 4:散文、报告文学和评论文章。 所以其实我非常不喜欢测这种模型的效果。 因为就是纯纯的体力活。至于遇到主观问题要怎么处理。 可以参考我之前发的多人取平均分,和 3 人仲裁制度。

    89112编辑于 2024-04-07
  • 来自专栏大模型成长之路

    模型学习 | DeepSeek-V3原理】

    DeepSeek-V3 Technical Report DeepSeek-V3 的基本框架还是 Transformer。 另外,V3 模型是通过将预测多token作为训练目标。本文主要是对DeepSeek-V3模型框架以及训练目标进行讨论。 什么是负载平衡? 2️⃣ DeepSeekMoE 在Transformer架构中的FFN层,V3模型采用了MoE进行替换,使用更细粒度的专家,并将一些专家隔离为共享专家。 ✅ Yes ✅ 无偏置 目前的模型权重已开源: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base 者由于设备限制无法对 V3模型进行体验。

    1.4K21编辑于 2025-07-25
  • 来自专栏CKL的思考空间

    模型测试技术与实践(文末送书)

    Part.1 模型测试为什么“测不准”? Part.3 双管齐下玩转模型测试模型测试技术与实践》不仅深入探讨了模型测试的独特挑战和机遇,还提出了将传统软件测试的原则和方法与 AI 系统的测试方法相结合的实践方案,双管齐下来确保模型在各种应用场景中的可靠性 最后结合模型的智能化测试,介绍了从 AI 算法的智能化到模型的智能化测试的转变,并通过实际的 RAG 实践,让读者体验模型测试和用模型进行测试的过程。 这本书可以说是为模型开发者、软件测试人员和 AI 爱好者量身打造的,提供了丰富的知识资源,激发起读者对模型测试技术深入探索的兴趣。 模型测试告别“测不准”,把DeepSeek快速高效地跑起来,就看这本《模型测试技术与实践》!

    96310编辑于 2025-03-11
领券