首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型安全评估”需要评估哪些?

    随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。模型并非完美无缺,其内在风险可能带来严重的现实世界危害。 #模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 评估需检验模型在知识密集型任务(如问答、摘要)中的事实准确性,及其对不确定信息的处理能力。逻辑一致性与连贯性: 评估模型在长文本生成或多轮对话中,是否能在逻辑上保持前后一致,避免自相矛盾或答非所问。 六、模型性能(拒答率)评估模型的安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。 建立“设计-开发-部署-监控”全生命周期的安全治理体系,通过迭代式的评估和反馈,才能不断降低风险,最终推动模型安全、可靠、负责任地造福人类社会。

    61910编辑于 2025-08-26
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1K10编辑于 2024-08-13
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解 0.前言 语言模型(LLM)评测是LLM开发和应用中的关键环节。 裁判员模型的存在明显的能力边界,很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的模型自动评估框架 GitHub type=free 模型性能评测(Perf Eval) 性能评测报告示例 4.模型评估框架-llmuses 链接:https://github.com/modelscope/eval-scope 大型语言模型评估(LLMs evaluation)已成为评价和改进模型的重要流程和手段,为了更好地支持模型的评测,我们提出了llmuses框架,该框架主要包括以下几个部分: 预置了多个常用的测试基准数据集 id,模型链接:ZhipuAI/chatglm3-6b 带参数评估 python llmuses/run.py --model ZhipuAI/chatglm3-6b --template-type

    4.6K13编辑于 2024-05-26
  • 来自专栏GiantPandaCV

    语言模型中的常用评估指标

    语言模型中的常用评估指标 EM EM 是 exact match 的简称,所以就很好理解,em 表示预测值和答案是否完全一样。 两个圆圈之外的部分,代表正确的、没召回的部分,叫 True Negative (FN); 这时再来看 F1 的计算,就更直观了: 在这里插入图片描述 precision 代表着召回结果中的正确比例,评估的是召回的准确性 如果预测结果对应的选项索引和真实的正确选项索引相同,那么 accuracy 就是 1,否则为0; Accuracy norm(归一化准确率),这个指标在计算过程中,会对模型计算出的每个选项的分数进行归一化 ,计算这个句子中词组合出现的概率,概率越高,困惑度越低,模型性能就证明是越好。 对于一个正确的句子,如果模型得出的困惑度越低,代表模型性能越好。

    4.5K30编辑于 2023-08-22
  • 模型备案环节如何评估模型的安全性

    模型在备案环节中,安全性的评估是最重要的,但大家往往掌握不好这个安全性的程度,今天我们分别从几个方面分析一下,模型的综合安全性能评估方向,希望能对备案中的小伙伴们有所帮助。 (3)数据质量与完整性检测数据是否存在错误、偏差、缺失值等问题。 (3模型可解释性与透明度:考察模型的决策过程是否具有一定的可解释性,便于发现潜在的安全问题,也有助于避免模型被滥用。 (3)输出可控性考察模型开发者是否具备对模型输出进行有效控制的能力,例如是否能够根据特定需求调整模型输出,是否可以设置输出的限制条件和过滤规则,以防止模型生成不可控或有害的内容。 (3)可持续发展考虑模型的发展是否符合可持续发展原则,例如模型的训练和运行是否消耗过多的能源和资源,是否对环境造成负面影响,以及模型的应用是否有助于社会的可持续发展目标。

    64910编辑于 2025-05-09
  • 来自专栏韩曙亮的移动开发专栏

    【AI 模型】Meta Llama 3 模型 ( Llama 3 模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3 模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 模型 ; 一 、Meta Llama 3 模型安装 1、Llama 3 模型简介 Llama 3 模型 是 Meta 公司 发布的 模型 , Meta 公司 就是 Facebook ; Llama 3 模型 Llama3 模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 模型使用 1、Llama 3 模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 模型离线使用 Llama 3 模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 模型 在 断网后也可以使用 , 下面是断开网络后

    1.7K12编辑于 2024-08-09
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. 迭代评估模式逐样本处理:逐个处理测试样本,适合内存受限场景实时反馈:可以实时观察模型表现灵活性:便于添加额外的评估逻辑3. : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    42132编辑于 2026-02-07
  • 来自专栏zingpLiu

    模型评估

    文章从模型评估的基本概念开始,分别介绍了常见的分类模型评估指标和回归模型评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。 模型的比较: 一次训练过程中的模型比较。 多次训练模型比较。 不同算法的模型比较。 2 评估指标的局限性 在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。 3 分类模型评估指标 正样本:需要判定概率为1的类型的样本叫做正样本。 负样本:需要判定概率为0的类型的样本叫做负样本。 RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常的离群点(Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。

    1.7K30发布于 2019-04-01
  • 模型备案材料—《安全评估报告》撰写指南

    模型备案已经是个老生常谈的话题了,但是备案材料一直都是大家比较头疼的点。我最近有5家客户刚好通过了模型备案,结合经验,给大家分享下模型备案中最重要的材料——《安全评估报告》内容详解。 或 “需整改后复核”)二、安全评估报告必须包含的内容(1)数据隐私保护评估模型处理用户数据时采取的隐私保护措施,像数据加密、匿名化处理、访问控制等,判断其能否保障用户数据不被泄露、滥用。 (3)有害信息过滤机制检查模型有无有效的有害信息识别及过滤机制,以避免传播暴力、色情、恐怖主义等违法或不良信息。 (3)合规性无遗漏需覆盖 “数据、算法、内容、用户、应急” 全维度,尤其注意《生成式人工智能服务安全基本要求》中 “动态风险评估”“供应链安全” 等易忽略条款(如模型使用的第三方插件需评估安全性)。 (2)评估对象信息模型基本信息:模型名称、版本号、训练框架、部署方式(公有云 / 私有部署)、服务场景(如内容生成、智能客服)核心参数:训练数据量、参数量、推理延迟、服务并发量(体现模型规模与应用场景匹配度

    81710编辑于 2025-08-18
  • 来自专栏机器之心

    可复现、自动化、低成本、高评估水平,首个自动化评估模型模型PandaLM来了

    机器之心专栏 机器之心编辑部 随着越来越多的模型问世,机器学习领域出现一个亟待解决的问题:如何实现保护隐私、可靠、可复现及廉价的模型评估3、采用人工标注对模型生成结果进行评测耗时费力,在经费预算有限和时间紧迫的情况下,如何加速评估过程并降低成本? 基于这些问题,来自北京大学、西湖大学等机构的研究者联合提出了一种全新的模型评估范式——PandaLM。PandaLM 通过训练一个专门用于评估模型,对模型能力进行自动化且可复现的测试验证。 PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估模型模型。相关论文会在近期公布。 同时,PandaLM 整个评估过程中不涉及任何 API 费用以及劳务费用,非常廉价。 3. 评估水平:为验证 PandaLM 的可靠性,该研究雇佣了三名专家独立完成重复标注,创建了一个人工标注测试集。

    1.3K10编辑于 2023-05-09
  • 来自专栏caoqi95的记录日志

    深度学习笔记3-模型训练及模型评估指标

    「学习内容总结自 udacity 和 coursera 的深度学习课程,截图来自 udacity 课件」 一.模型训练 1.为模型创建测试集 建立好一个模型之后我们要怎么评估它的好坏以及泛化的能力(由具体的 但是,有时候在模型的构建过程中也需要检验模型,辅助优化模型,调整模型参数,这时候就会引入验证数据集,验证集有时候也称为开发集(Dev set)。 3.对于欠拟合的优化 出现欠拟合的情况,可以用下面的方法来优化: 建立一个更大的网络 训练的更久,采用优化算法--momentum,Adam,RMSprop 优化算法可以查看这篇笔记 神经网络结构的研究 二.模型评估 1.使用混淆矩阵评估模型 如下图所示,我们以去医院就诊为例(生病为阳性,健康为阴性)。 2.使用准确率,查准率和查全率来评估模型 准确率Accuracy 准确率(Accuracy)也是评估模型性能的一个指标。继续以上面10000名患者诊断为例。

    3.6K20发布于 2019-03-27
  • 来自专栏全栈程序员必看

    模型评估

    因此,离线评估的结果是理想工程环境下的结果。 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。 5 模型评估的方法 知识点:Holdout检验、交叉验证、自助法(Bootstrap)、微积分 问题:在模型评估过程中,有哪些主要的验证方法,优缺点? 为了消除随机性,引入“交叉验证” 交叉验证 k-fold验证 留一验证:时间开销 自助法 不管是holdout检验还是交叉校验,都是基于划分训练集和测试集的方法进行模型评估的。 在数据较少时,模型过于复杂是产生过拟合的主要因素,适当降低模型复杂度可以避免模型拟合过多的采样噪声。 (3)正则化方法。给模型的参数加上一定的正则约束,比如将权值的大小加入到损失函数中。 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。 (2)增加模型复杂度。 (3)减小正则化系数。

    98240发布于 2021-05-20
  • 来自专栏数据分析1480

    3个最常用的分类模型评估指标!

    很容易发现,图中标记为2的部分表示模型预测结果正确,而标记为1和3的部分则表示模型预测结果错误。 对于一份预测结果,一方面希望它能做到“精确”:当时 ? ,有很大概率,真实值 ? 就等于1。 整个过程的直观图像如图3所示。 ? 图3 03 F-score 既然这两个指标往往是成反比的,而且在很大程度上,受预测标准的控制。那么只拿其中的某一个指标去评估预测结果是不太合适的。 具体的定义如公式(3),从数学上来看,它其实是查准率与查全率的调和平均数。对于二元分类问题, ? 综合考虑了预测结果的查准率和查全率,是一个比较好的评估指标。 ? 例如对于网上购物的衣服推荐,电商平台关心的是那些对衣服感兴趣的客户,希望模型对这些客户的预测都正确;而那些对衣服不感兴趣的客户,即使模型结果有较大偏差,也是可以接受的。 但对于大多数分类模型,它们往往能产生很多份分类结果,比如对于逻辑回归,调整预测阈值可以得到不同的分类结果。也就是说,这三个指标并不能“很全面”地评估模型本身的效果,需要引入新的评估指标。

    3.1K10发布于 2019-05-22
  • 来自专栏软件测试那些事

    模型生成单测用例的评估方案

    模型生成单元测试是目前比较常见的研发侧落地的应用场景之一。为了对模型以及单测生成方案进行评估,因此梳理了一个评估方案,供业内同仁参考。 此处所谓的单测生成是指基于既有的代码,让模型来自动生成单元测试。 生成成功的标志是: 1) 可以生成单元测试用例 2) 该用例可以被编译、执行通过 3) 被测方法被调用 4) 有断言 评估框架 类别 具体项 代码场景 对各种代码场景的覆盖 过程 用例的通过率和正确率% 当然,由于内部部署的模型规模要小很多,生成效果会进一步打折。 (可能受用例执行顺序的影响,每次筛选的结果会不一样) 4 用例集的执行耗时最小 在3的基础上,如果有多个用例可选,则选择耗时最短的(要考虑 setup/teardown) 方案局限性 就代码生成单测

    1.8K10编辑于 2024-04-22
  • 来自专栏自然语言处理(NLP)论文速递

    细数:模型评估基准的「七宗罪」

    Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于模型涌现能力的论文。目前他正在 OpenAI 进行工作。 在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在模型时代,我们该如何评估 LLM 性能? HumanEval:是 LLM 编码的经典评估基准。 成功的评估往往会有一篇论文声称使用该评估基准取得了一些突破。 2、评估基准应该是高质量的。如果评估基准中有很多错误,人们就不会相信它,例如 Natural Questions(NQ)基准。 3、如果你的评估基准太复杂,人们会很难理解它,并且会很少使用它。 斯坦福大学教授 Chris Manning 提出了一个很好的建议,即对公开测试集、私有测试集都进行评估,并监控模型在这两个测试集上是否有的偏差。

    88210编辑于 2024-05-28
  • 来自专栏自学气象人

    气象模型论文中评估指标的计算详解

    最近气象模型比较火,分享一下在气象模型论文中常见的几个评估指标(RMSE,ACC,MAE)的计算方法。 data_array2)) 参考:https://github.com/xiazh18/WeatherBench/blob/master/src/score.py 历史文章推荐 Python+AI+气象+模式合集

    1.2K21编辑于 2023-09-05
  • 来自专栏全栈程序员必看

    分类模型评估方法_政策评估模型与方法

    : 真实类别为负例,预测类别为正例; 假负例(false negative FN):真实类别为正例,预测类别为负例; 真负例(true negative TN):真实类别为负例,预测类别为负例; 分类模型评价指标有 查全率时的取值,当一个学习期的BEP高于另一个学习器的,则可以认为该学习器优于另一个; 但BEP过于简化,更常用的是F1值;另外再一些应用中可能对查准率和查全率的重视程度不同,可以对它们施加不同的偏好,定义为: 3.

    83030编辑于 2022-11-10
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的模型? 它支持各种LLM,包括Llama 3、Mistral和Gemma。提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.3K33编辑于 2025-02-06
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    近期,中文模型研发如火如荼,但中文评价基准却很少。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 ),比如 toolformer 4.3 - 不着急 模型就是一件花时间的事情,它是对人工智能工业能力的全方位大考: OpenAI 的 GPT 系列从 GPT-3 走到 GPT-4,从 2019 到 Anthropic 原班人马从 OpenAI 剥离之后,即使有 GPT-3 的经验,重新做一遍 Claude 也花了一年的时间。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。

    1.4K31编辑于 2023-08-08
  • 模型备案中语料的安全评估详细说明

    一、语料安全评估的重要性语料安全评估是确保数据合规性、避免法律风险的关键环节,尤其涉及敏感信息、隐私数据或潜在有害内容时需要严格审查。评估需涵盖数据来源、内容性质、使用场景等多维度。 二、核心评估维度一.数据来源合法性确认语料是否通过合法渠道获取,避免使用盗版、未授权或违反隐私保护条例。 2.内容合规性筛查语料是否包含以下内容:o 暴力、仇恨言论、歧视性语言o 个人隐私信息(如身份证号、住址)o 版权受限内容(如未授权的文学作品)o 政治敏感或违反地区法律的信息3.质量与偏差控制o 检查语料是否存在偏见 三、评估方法1.自动化工具o 使用NLP模型(如BERT、RoBERTa)检测敏感词或有害内容。o 部署图像识别技术筛查违规图片或视频帧。2.人工审核o 对高风险语料进行人工复核,结合上下文判断语义。 五、持续监控o 定期更新敏感词库与模型训练数据,适应新兴风险。o 记录评估结果并生成报告,支持审计与合规验证。通过多维度、多层次的评估体系,可有效降低语料使用风险,确保内容安全可控。

    40910编辑于 2025-08-11
领券