首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型安全评估”需要评估哪些?

    随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。模型并非完美无缺,其内在风险可能带来严重的现实世界危害。 #模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 评估需检验模型在知识密集型任务(如问答、摘要)中的事实准确性,及其对不确定信息的处理能力。逻辑一致性与连贯性: 评估模型在长文本生成或多轮对话中,是否能在逻辑上保持前后一致,避免自相矛盾或答非所问。 六、模型性能(拒答率)评估模型的安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。 建立“设计-开发-部署-监控”全生命周期的安全治理体系,通过迭代式的评估和反馈,才能不断降低风险,最终推动模型安全、可靠、负责任地造福人类社会。

    61910编辑于 2025-08-26
  • 来自专栏机器学习/数据可视化

    模型评估方法-2

    评估方法 在实际中,通常需要通过实现对学习器的泛化误差进行评估并进而做出选择。需要使用一个测试集来测试学习器对新样本的判别能力,然后以测试误差近似作为“泛化误差”。 在S上进行训练模型,在T上进行测试和评估误差,作为对泛化误差的估计。注意点: 训练/测试集合的划分应该尽量保持数据分布的一致性,避免因为数据划分过程而引入额外的偏差。 比如S中350个正例,350个反例;T中150个正例,150个反例 即使确定了划分比例之后,不同的划分方法仍然对模型评估造成缺别。 交叉验证法 现将数据集合D划分成k个大小相似的互斥子集D_1,D_2,…,D_k。每个子集尽量保持数据分布的一致性,即从D中分层采样得到。 每个子集只比原来的数据集D少了一个样本,因此通过留一法得到的评估结果和原数据D得到的很相似。 缺点:当数据集很大量的时候,计算开销。 自助法 自助法是通过自助采样法bootstrapping为基础。

    74810发布于 2021-03-02
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1K10编辑于 2024-08-13
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解 0.前言 语言模型(LLM)评测是LLM开发和应用中的关键环节。 裁判员模型的存在明显的能力边界,很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的模型自动评估框架 GitHub type=free 模型性能评测(Perf Eval) 性能评测报告示例 4.模型评估框架-llmuses 链接:https://github.com/modelscope/eval-scope 大型语言模型评估(LLMs evaluation)已成为评价和改进模型的重要流程和手段,为了更好地支持模型的评测,我们提出了llmuses框架,该框架主要包括以下几个部分: 预置了多个常用的测试基准数据集 支持本地模型可部署在本地 评估报告可视化展现 丰富的评估指标 model-based自动评估流程,支持多种评估模式 Single mode: 专家模型对单个模型打分 Pairwise-baseline

    4.6K13编辑于 2024-05-26
  • 来自专栏小鹏的专栏

    机器学习-2:MachineLN之模型评估

    那么我的问题是: (1)为什么要评估模型? (2评估模型有哪些方法? (3)不同的方法针对什么问题? (4)根据评估的结果如何调优? (5)根据评估结果怎么判定模型训练完成? (1)为什么要评估模型? 其实我们去评估模型最终是为了,得到符合我们数据或者是业务的最优模型,但是这往往不是一蹴而就的,反而使得评估模型通常成了下一步我们调参或者调优的一个参考。 (2评估模型有哪些方法? 在(2)中回答过了。 (4)根据评估的结果如何调优?(都是基于深度学习的,?) 当训练集的效果(准确率)上不去,和贝叶斯估计(人的表现)存在一定差距的时候: (1)增加模型的复杂度。  机器学习-1:MachineLN之三要素 2. 机器学习-2:MachineLN之模型评估 3. 机器学习-3:MachineLN之dl 4. 机器学习-4:DeepLN之CNN解析 5. 

    51720编辑于 2022-05-09
  • 来自专栏GiantPandaCV

    语言模型中的常用评估指标

    语言模型中的常用评估指标 EM EM 是 exact match 的简称,所以就很好理解,em 表示预测值和答案是否完全一样。 两个圆圈之外的部分,代表正确的、没召回的部分,叫 True Negative (FN); 这时再来看 F1 的计算,就更直观了: 在这里插入图片描述 precision 代表着召回结果中的正确比例,评估的是召回的准确性 ,计算这个句子中词组合出现的概率,概率越高,困惑度越低,模型性能就证明是越好。 2、困惑度的计算: 在这里插入图片描述 # 输入一个句子 sentence # 输入模型算出的 uni_gram_dict【unigram,单词的概率表】和 bi_gram_dict【bigram,两个词的概率表 对于一个正确的句子,如果模型得出的困惑度越低,代表模型性能越好。

    4.5K30编辑于 2023-08-22
  • 模型备案环节如何评估模型的安全性

    模型在备案环节中,安全性的评估是最重要的,但大家往往掌握不好这个安全性的程度,今天我们分别从几个方面分析一下,模型的综合安全性能评估方向,希望能对备案中的小伙伴们有所帮助。 (2模型知识产权保护确定模型的知识产权归属,评估是否存在侵权风险,检查模型的开发过程中是否合法使用了开源代码和第三方模型,是否有明确的知识产权声明和授权协议,避免知识产权纠纷。 (2)结果准确性与可靠性利用各种测试数据集和评估指标,检验模型输出结果的准确性和可靠性。 (2)访问控制与权限管理:检查模型的访问控制机制是否健全,是否对不同用户角色设置了合理的权限,防止未经授权的访问和滥用。 (2)责任界定明确模型在开发、部署和使用过程中,各参与方的责任与义务,在模型出现安全问题或不良影响时,能够准确追究责任人,促使各方履行安全管理职责。

    64910编辑于 2025-05-09
  • 来自专栏GIS与遥感开发平台

    分类模型评估指标 | 混淆矩阵(2

    遥感影像分类评估 书接上回,今天我们来看一看遥感影像分类是如何进行评估的。 01 概念 首先我们先了解一下什么是遥感影像分类。 对遥感影像分类结果进行评估就是一个通过比较检验样本与分类结果的符合程度来确定分类准确度的过程。 02 精度与准确度 在刚刚的概念中我们也了解到,评估是确定分类准确度的一个过程。 2 ---结果 kappa系数的计算结果处于(-1,1)之间,但一般情况下其结果处于(0,1)之间,且可分为五个级别来表示一致性: (0,0.2】表现为极低一致性; (0.2,0.4】表现为一般一致性; =20/(20+5+2)≈74% 3 ---用户精度 user accuracy=20/(10+10+20)=50% 4 ---错分误差 commission error =(10+10)/40 =1 -user accuracy=50% 5 ---漏分误差 omission error =(5+2)/27 =1-producer accuracy ≈26% 6 ---kappa系数 Po=0.53

    3.5K30编辑于 2022-04-29
  • 来自专栏机器学习算法工程师

    《机器学习》笔记-模型评估与选择(2

    章节目录 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 个人觉得对于初学的同学,一开始便谈论模型评估和选择可能不太合适。建议这个章节可以快速阅读,有大概的轮廓和线条即可。 2 评估方法 通常,我们可以通过实验测试来对学习器的[泛化误差]进行评估,并进而做出选择。 我们假设测试样本是从样本真实分布中[独立同分布]采样而来。 若令训练集S包含绝大多数样本,则训练出的模型可能更接近与用D训练出的模型,但由于T比较小,评估结果可能不够稳定准确;若令测试集T多包含一些样本,则训练集S与D差别更大了,被评估模型与用D训练出的模型相比可能有较大差别 交叉检验中的“留一法”使用的训练集与初始化数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估模型与期望评估的用D训练出的模型很相似。因此,留一法的评估结果往往被认为比较准确。 另外,留一法的评估结果也未必永远比其他评估方法准确。 自助法 2.3 我们希望评估的是用D训练出的模型

    1.3K60发布于 2018-03-06
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. 数据集发布:将高质量的数据集打包发布,供模型训练和评估使用。这个流程确保了数据集的可靠性和可用性,是构建高质量NLP模型的基础。2. : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    42132编辑于 2026-02-07
  • 来自专栏zingpLiu

    模型评估

    文章从模型评估的基本概念开始,分别介绍了常见的分类模型评估指标和回归模型评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。 所以,为了得到泛化误差小的模型,在构建机器模型时,通常将数据集拆分为相互独立的训练数据集、验证数据集和测试数据集等,而在训练过程中使用验证数据集来评估模型并据此更新超参数,训练结束后使用测试数据集评估训练好的最终模型的性能 模型的比较: 一次训练过程中的模型比较。 多次训练模型比较。 不同算法的模型比较。 2 评估指标的局限性 在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。 RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常的离群点(Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。

    1.7K30发布于 2019-04-01
  • 模型备案材料—《安全评估报告》撰写指南

    模型备案已经是个老生常谈的话题了,但是备案材料一直都是大家比较头疼的点。我最近有5家客户刚好通过了模型备案,结合经验,给大家分享下模型备案中最重要的材料——《安全评估报告》内容详解。 撰写模型安全评估报告需遵循 “合规导向、逻辑清晰、内容详实、证据支撑” 原则,严格对标《生成式人工智能服务安全基本要求》、《生成式人工智能服务管理暂行办法》等法规标准,确保报告具备专业性、可追溯性和可验证性 或 “需整改后复核”)二、安全评估报告必须包含的内容(1)数据隐私保护评估模型处理用户数据时采取的隐私保护措施,像数据加密、匿名化处理、访问控制等,判断其能否保障用户数据不被泄露、滥用。 (2)算法偏见识别与纠正分析模型有无潜在偏见,会不会对特定群体造成不公平影响。若存在偏见需阐述纠正措施,保障模型生成内容公正客观。 (2评估对象信息模型基本信息:模型名称、版本号、训练框架、部署方式(公有云 / 私有部署)、服务场景(如内容生成、智能客服)核心参数:训练数据量、参数量、推理延迟、服务并发量(体现模型规模与应用场景匹配度

    81710编辑于 2025-08-18
  • 来自专栏机器之心

    可复现、自动化、低成本、高评估水平,首个自动化评估模型模型PandaLM来了

    机器之心专栏 机器之心编辑部 随着越来越多的模型问世,机器学习领域出现一个亟待解决的问题:如何实现保护隐私、可靠、可复现及廉价的模型评估2、使用 ChatGPT 对模型输出进行评估,但是 ChatGPT 对相同输入在不同时间得到的评估结果不同,到底采用哪个评估结果? 基于这些问题,来自北京大学、西湖大学等机构的研究者联合提出了一种全新的模型评估范式——PandaLM。PandaLM 通过训练一个专门用于评估模型,对模型能力进行自动化且可复现的测试验证。 PandaLM介绍 目前,主要有两种方式来评估大型模型: (1)通过调用第三方公司的 API 接口; (2)雇用专家进行人工标注。 而依赖在线 API 的评估手段由于更新不透明,其评估结果在不同时间可能不一致,且随着模型迭代,API 中的旧版模型可能无法再访问,因此基于在线 API 的评测往往不具有可复现性。 2.

    1.3K10编辑于 2023-05-09
  • 来自专栏全栈程序员必看

    模型评估

    FPR = FP/N TPR = TP/P 问题2 如何绘制ROC曲线? 因此,离线评估的结果是理想工程环境下的结果。 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。 为了消除随机性,引入“交叉验证” 交叉验证 k-fold验证 留一验证:时间开销 自助法 不管是holdout检验还是交叉校验,都是基于划分训练集和测试集的方法进行模型评估的。 因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。当然,直接增加实验数据一般是困难的,但是可以通过一定的规则来扩充训练数据。 (2)降低模型复杂度。 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。 (2)增加模型复杂度。 (3)减小正则化系数。

    98240发布于 2021-05-20
  • 来自专栏软件测试那些事

    模型生成单测用例的评估方案

    模型生成单元测试是目前比较常见的研发侧落地的应用场景之一。为了对模型以及单测生成方案进行评估,因此梳理了一个评估方案,供业内同仁参考。 此处所谓的单测生成是指基于既有的代码,让模型来自动生成单元测试。 生成成功的标志是: 1) 可以生成单元测试用例 2) 该用例可以被编译、执行通过 3) 被测方法被调用 4) 有断言 评估框架 类别 具体项 代码场景 对各种代码场景的覆盖 过程 用例的通过率和正确率% 当然,由于内部部署的模型规模要小很多,生成效果会进一步打折。 筛选条件 方案 1 缺陷对应的测试用例优先保留 测试用例的方法上带有 @Bug 或者 @OnlineBug 的注解 2 接口覆盖率100%,应保留接口自动化覆盖的用例 每个接口至少要保留一个单接口的集成测试用例

    1.8K10编辑于 2024-04-22
  • 来自专栏自然语言处理(NLP)论文速递

    细数:模型评估基准的「七宗罪」

    Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于模型涌现能力的论文。目前他正在 OpenAI 进行工作。 在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在模型时代,我们该如何评估 LLM 性能? HumanEval:是 LLM 编码的经典评估基准。 成功的评估往往会有一篇论文声称使用该评估基准取得了一些突破。 2评估基准应该是高质量的。如果评估基准中有很多错误,人们就不会相信它,例如 Natural Questions(NQ)基准。 3、如果你的评估基准太复杂,人们会很难理解它,并且会很少使用它。 斯坦福大学教授 Chris Manning 提出了一个很好的建议,即对公开测试集、私有测试集都进行评估,并监控模型在这两个测试集上是否有的偏差。

    88210编辑于 2024-05-28
  • 来自专栏自学气象人

    气象模型论文中评估指标的计算详解

    最近气象模型比较火,分享一下在气象模型论文中常见的几个评估指标(RMSE,ACC,MAE)的计算方法。 返回: rmse: 纬度加权的均方根误差 """ error = da_fc - da_true weights_lat = np.cos(np.deg2rad (error.lat)) weights_lat /= weights_lat.mean() rmse = np.sqrt(((error)**2 * weights_lat).mean print("Data Array 2:") print(data_array2) #rmse print(compute_weighted_rmse(data_array1,data_array2) 气象+模式合集 回归评价指标---MSE、RMSE、MAE、R-Squared 气象上常见的评分函数及其Python实现

    1.2K21编辑于 2023-09-05
  • 来自专栏全栈程序员必看

    分类模型评估方法_政策评估模型与方法

    : 真实类别为负例,预测类别为正例; 假负例(false negative FN):真实类别为正例,预测类别为负例; 真负例(true negative TN):真实类别为负例,预测类别为负例; 分类模型评价指标有 accuracy = (TP+TN)/(P+N) accuracy = 1-error_rate 错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例; error_rate = 2. 查准率、查全率和F1 查准率(准确率)P = TP/(TP+FP) 查全率(召回率)R = TP/(TP+FN) F1值:F1 = 2/(1/R + 1/P) = 2*P*R/(P+R) 查准率和查全率是一对矛盾的指标

    83030编辑于 2022-11-10
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    近期,中文模型研发如火如荼,但中文评价基准却很少。 这说明推理是很显著的强的模型有,弱一点的模型不大有的能力。 在 PaLM-2 的 Tech Report 中,BBH 和 MATH 这两个推理数据集被专门列出来讨论划重点。 推理型任务的榜单上,模型大小和模型分数可能存在相变,只有当模型到一定程度之后(大概是 50B 往上,也就是 LLaMA 65B 这个量级),模型推理能力才会上来。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。

    1.4K31编辑于 2023-08-08
  • 模型备案中语料的安全评估详细说明

    一、语料安全评估的重要性语料安全评估是确保数据合规性、避免法律风险的关键环节,尤其涉及敏感信息、隐私数据或潜在有害内容时需要严格审查。评估需涵盖数据来源、内容性质、使用场景等多维度。 二、核心评估维度一.数据来源合法性确认语料是否通过合法渠道获取,避免使用盗版、未授权或违反隐私保护条例。 2.内容合规性筛查语料是否包含以下内容:o 暴力、仇恨言论、歧视性语言o 个人隐私信息(如身份证号、住址)o 版权受限内容(如未授权的文学作品)o 政治敏感或违反地区法律的信息3.质量与偏差控制o 检查语料是否存在偏见 三、评估方法1.自动化工具o 使用NLP模型(如BERT、RoBERTa)检测敏感词或有害内容。o 部署图像识别技术筛查违规图片或视频帧。2.人工审核o 对高风险语料进行人工复核,结合上下文判断语义。 五、持续监控o 定期更新敏感词库与模型训练数据,适应新兴风险。o 记录评估结果并生成报告,支持审计与合规验证。通过多维度、多层次的评估体系,可有效降低语料使用风险,确保内容安全可控。

    40910编辑于 2025-08-11
领券