首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型安全评估”需要评估哪些?

    随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。模型并非完美无缺,其内在风险可能带来严重的现实世界危害。 #模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 评估需检验模型在知识密集型任务(如问答、摘要)中的事实准确性,及其对不确定信息的处理能力。逻辑一致性与连贯性: 评估模型在长文本生成或多轮对话中,是否能在逻辑上保持前后一致,避免自相矛盾或答非所问。 六、模型性能(拒答率)评估模型的安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。 建立“设计-开发-部署-监控”全生命周期的安全治理体系,通过迭代式的评估和反馈,才能不断降低风险,最终推动模型安全、可靠、负责任地造福人类社会。

    59510编辑于 2025-08-26
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1K10编辑于 2024-08-13
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解 0.前言 语言模型(LLM)评测是LLM开发和应用中的关键环节。 裁判员模型的存在明显的能力边界,很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的模型自动评估框架 GitHub type=free 模型性能评测(Perf Eval) 性能评测报告示例 4.模型评估框架-llmuses 链接:https://github.com/modelscope/eval-scope 大型语言模型评估(LLMs evaluation)已成为评价和改进模型的重要流程和手段,为了更好地支持模型的评测,我们提出了llmuses框架,该框架主要包括以下几个部分: 预置了多个常用的测试基准数据集 支持本地模型可部署在本地 评估报告可视化展现 丰富的评估指标 model-based自动评估流程,支持多种评估模式 Single mode: 专家模型对单个模型打分 Pairwise-baseline

    4.5K13编辑于 2024-05-26
  • 来自专栏GiantPandaCV

    语言模型中的常用评估指标

    语言模型中的常用评估指标 EM EM 是 exact match 的简称,所以就很好理解,em 表示预测值和答案是否完全一样。 两个圆圈之外的部分,代表正确的、没召回的部分,叫 True Negative (FN); 这时再来看 F1 的计算,就更直观了: 在这里插入图片描述 precision 代表着召回结果中的正确比例,评估的是召回的准确性 如果预测结果对应的选项索引和真实的正确选项索引相同,那么 accuracy 就是 1,否则为0; Accuracy norm(归一化准确率),这个指标在计算过程中,会对模型计算出的每个选项的分数进行归一化 ,计算这个句子中词组合出现的概率,概率越高,困惑度越低,模型性能就证明是越好。 对于一个正确的句子,如果模型得出的困惑度越低,代表模型性能越好。

    4.5K30编辑于 2023-08-22
  • 模型备案环节如何评估模型的安全性

    模型在备案环节中,安全性的评估是最重要的,但大家往往掌握不好这个安全性的程度,今天我们分别从几个方面分析一下,模型的综合安全性能评估方向,希望能对备案中的小伙伴们有所帮助。 一、数据安全评估(1)数据隐私保护检查模型训练数据中是否包含敏感信息,同时,评估在数据收集、存储、使用过程中是否采取了严格的隐私保护措施,像加密技术对数据进行加密处理等,防止数据泄露导致用户隐私被侵犯。 (2)模型知识产权保护确定模型的知识产权归属,评估是否存在侵权风险,检查模型的开发过程中是否合法使用了开源代码和第三方模型,是否有明确的知识产权声明和授权协议,避免知识产权纠纷。 (2)结果准确性与可靠性利用各种测试数据集和评估指标,检验模型输出结果的准确性和可靠性。 五、伦理道德安全评估(1)公平性与非歧视性评估模型在不同种族、性别、年龄等群体上的表现是否公平,通过分析模型对不同群体的预测结果和决策差异,检测是否存在对某些群体的歧视性输出,避免模型加剧社会不平等和偏见

    62810编辑于 2025-05-09
  • 来自专栏机器之心

    可复现、自动化、低成本、高评估水平,首个自动化评估模型模型PandaLM来了

    机器之心专栏 机器之心编辑部 随着越来越多的模型问世,机器学习领域出现一个亟待解决的问题:如何实现保护隐私、可靠、可复现及廉价的模型评估? 基于这些问题,来自北京大学、西湖大学等机构的研究者联合提出了一种全新的模型评估范式——PandaLM。PandaLM 通过训练一个专门用于评估模型,对模型能力进行自动化且可复现的测试验证。 PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估模型模型。相关论文会在近期公布。 一个亟待解决的问题是:如何实现保护隐私、可靠、可复现及廉价的模型评估? PandaLM 不仅具有高评估水平,而且结果具备可复现性,评估流程高度自动化,同时保护隐私且成本较低。研究团队相信 PandaLM 将推动学术界和工业界对模型的研究,使更多人从模型的发展中受益。

    1.3K10编辑于 2023-05-09
  • 来自专栏全栈程序员必看

    模型评估

    离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果 离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。 因此,离线评估的结果是理想工程环境下的结果。 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。 5 模型评估的方法 知识点:Holdout检验、交叉验证、自助法(Bootstrap)、微积分 问题:在模型评估过程中,有哪些主要的验证方法,优缺点? 为了消除随机性,引入“交叉验证” 交叉验证 k-fold验证 留一验证:时间开销 自助法 不管是holdout检验还是交叉校验,都是基于划分训练集和测试集的方法进行模型评估的。 acquisition函数是一个权衡“探索(方差)”和“利用(均值)”的函数 对于贝叶斯优化算法,一旦找到了局部最优值,它会在该区域不断采样,所以很容易陷入局部最优值。

    98040发布于 2021-05-20
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. 迭代评估模式逐样本处理:逐个处理测试样本,适合内存受限场景实时反馈:可以实时观察模型表现灵活性:便于添加额外的评估逻辑3. : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    38021编辑于 2026-02-07
  • 模型备案材料—《安全评估报告》撰写指南

    模型备案已经是个老生常谈的话题了,但是备案材料一直都是大家比较头疼的点。我最近有5家客户刚好通过了模型备案,结合经验,给大家分享下模型备案中最重要的材料——《安全评估报告》内容详解。 撰写模型安全评估报告需遵循 “合规导向、逻辑清晰、内容详实、证据支撑” 原则,严格对标《生成式人工智能服务安全基本要求》、《生成式人工智能服务管理暂行办法》等法规标准,确保报告具备专业性、可追溯性和可验证性 :梳理未解决风险,提出可落地的改进方案必备要素:风险等级(高 / 中 / 低)、整改责任人、时限(7)评估结论核心作用:明确模型是否满足备案安全要求必备要素:结论需 “非黑即白”(如 “符合安全要求” 或 “需整改后复核”)二、安全评估报告必须包含的内容(1)数据隐私保护评估模型处理用户数据时采取的隐私保护措施,像数据加密、匿名化处理、访问控制等,判断其能否保障用户数据不被泄露、滥用。 (2)评估对象信息模型基本信息:模型名称、版本号、训练框架、部署方式(公有云 / 私有部署)、服务场景(如内容生成、智能客服)核心参数:训练数据量、参数量、推理延迟、服务并发量(体现模型规模与应用场景匹配度

    77910编辑于 2025-08-18
  • 来自专栏zingpLiu

    模型评估

    文章从模型评估的基本概念开始,分别介绍了常见的分类模型评估指标和回归模型评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。 所以,为了得到泛化误差小的模型,在构建机器模型时,通常将数据集拆分为相互独立的训练数据集、验证数据集和测试数据集等,而在训练过程中使用验证数据集来评估模型并据此更新超参数,训练结束后使用测试数据集评估训练好的最终模型的性能 模型的比较: 一次训练过程中的模型比较。 多次训练模型比较。 不同算法的模型比较。 2 评估指标的局限性 在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。 RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常的离群点(Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。

    1.6K30发布于 2019-04-01
  • 来自专栏软件测试那些事

    模型生成单测用例的评估方案

    模型生成单元测试是目前比较常见的研发侧落地的应用场景之一。为了对模型以及单测生成方案进行评估,因此梳理了一个评估方案,供业内同仁参考。 此处所谓的单测生成是指基于既有的代码,让模型来自动生成单元测试。 生成成功的标志是: 1) 可以生成单元测试用例 2) 该用例可以被编译、执行通过 3) 被测方法被调用 4) 有断言 评估框架 类别 具体项 代码场景 对各种代码场景的覆盖 过程 用例的通过率和正确率% 人工评判 用例体验 代码可读性 经济性 成本(非私有化部署需要考虑) 生成耗时 代码场景 基于我们现有的方案,经过测试ChatGPT3.5以及GLM4这两个大模型,发现17个通用场景大概能通关12 当然,由于内部部署的模型规模要小很多,生成效果会进一步打折。

    1.8K10编辑于 2024-04-22
  • 来自专栏自学气象人

    气象模型论文中评估指标的计算详解

    最近气象模型比较火,分享一下在气象模型论文中常见的几个评估指标(RMSE,ACC,MAE)的计算方法。 data_array2)) 参考:https://github.com/xiazh18/WeatherBench/blob/master/src/score.py 历史文章推荐 Python+AI+气象+模式合集

    1.2K21编辑于 2023-09-05
  • 来自专栏自然语言处理(NLP)论文速递

    细数:模型评估基准的「七宗罪」

    Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于模型涌现能力的论文。目前他正在 OpenAI 进行工作。 在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在模型时代,我们该如何评估 LLM 性能? HumanEval:是 LLM 编码的经典评估基准。 成功的评估往往会有一篇论文声称使用该评估基准取得了一些突破。 如果他们的模型在这个评估上表现良好,那么人们通常会喜欢它并进一步的推广它。HELM 就非常擅长为其他人评估模型并公布结果。 此外,如果你能为人们使用你的评估工具创造激励机制也很有帮助。 斯坦福大学教授 Chris Manning 提出了一个很好的建议,即对公开测试集、私有测试集都进行评估,并监控模型在这两个测试集上是否有的偏差。

    87510编辑于 2024-05-28
  • 模型备案中语料的安全评估详细说明

    一、语料安全评估的重要性语料安全评估是确保数据合规性、避免法律风险的关键环节,尤其涉及敏感信息、隐私数据或潜在有害内容时需要严格审查。评估需涵盖数据来源、内容性质、使用场景等多维度。 二、核心评估维度一.数据来源合法性确认语料是否通过合法渠道获取,避免使用盗版、未授权或违反隐私保护条例。 三、评估方法1.自动化工具o 使用NLP模型(如BERT、RoBERTa)检测敏感词或有害内容。o 部署图像识别技术筛查违规图片或视频帧。2.人工审核o 对高风险语料进行人工复核,结合上下文判断语义。 五、持续监控o 定期更新敏感词库与模型训练数据,适应新兴风险。o 记录评估结果并生成报告,支持审计与合规验证。通过多维度、多层次的评估体系,可有效降低语料使用风险,确保内容安全可控。

    40010编辑于 2025-08-11
  • 生成式人工智能(语言模型)安全评估要点

    模型评估维度涵盖了模型的多方面,数据安全它关系到我们每个人的隐私和权益不容忽视,在此,我整理了一些关于模型“安全评估”的一些要点,希望能够帮助到正在备案的友友们! #生成式人工智能##模型##安全评估##aigc##备案##模型备案#一、语料安全评估(一)评估内容1.文本训练语料规模2.各类型语料规模3.训练语料来源4.语料标注数量5.标注人员情况6.标注规则 7.标注内容准确性核验8.语料合法性二、模型安全评估1.语料内容评估2.生成内容评估3.涉知识产权、商业秘密的评估4.涉民族、信仰、性别等评估5.涉透明性、准确性、可靠性等的评估三、安全措施评估1.模型适用人群 .收集个人信息征得个人同意情况4.受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况5.图片、视频标识情况6.接受公众或使用者投诉举报情况7.服务协议情况8.非法内容拦截措施9.拒答率10.模型更新

    56810编辑于 2025-08-19
  • 来自专栏全栈程序员必看

    分类模型评估方法_政策评估模型与方法

    : 真实类别为负例,预测类别为正例; 假负例(false negative FN):真实类别为正例,预测类别为负例; 真负例(true negative TN):真实类别为负例,预测类别为负例; 分类模型评价指标有

    82830编辑于 2022-11-10
  • 来自专栏机器之心

    如何评估语言模型是否可信?这里总结了七维度

    论文地址:https://arxiv.org/abs/2308.05374 语言模型对齐分类法 图一展示了本文提出的语言模型可信度对齐分类法:共有 7 个主要类别,每个类别都被进一步细分为更详细的讨论 文章继续对每个类别进行概述: 图一:文本提出的语言模型可信度对齐分类法。 本文的分析基于在模型时代出现的安全和可信任部署挑战,也考虑了已有文献里对可信任人工智能的讨论。 同时对主要类别的定义和划分参考了模型在社会中的应用,尽量确保每个评估的维度在主流的模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。 结论 本文为从业者提供了一个 LLM 可信度维度的调研,全面分析了在搭建可信任模型过程中需要考量和注意的方向和问题。

    1.6K51编辑于 2023-10-04
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    近期,中文模型研发如火如荼,但中文评价基准却很少。 推理型任务的榜单上,模型大小和模型分数可能存在相变,只有当模型到一定程度之后(大概是 50B 往上,也就是 LLaMA 65B 这个量级),模型推理能力才会上来。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。 我们希望这份工作可以促进中文模型的研发生态,让人们早一点体验到这项技术带来的便利。 编辑:王菁

    1.4K31编辑于 2023-08-08
  • 引入了AI模型开发客服对话质量评估助手

    一、项目背景:传统客服对话质检的4核心痛点我们公司客服团队有50+人,每天要处理上千条用户对话(覆盖文字、语音、在线聊天等渠道),传统的对话质量评估完全依赖人工质检,痛点突出到客服主管多次申请优化:评估效率极低 核心功能:多维度质量智能评估与整改建议生成这是项目的价值输出环节,要实现按标准化维度对客服对话质量进行自动评估,我们借助JBoltAI的多维度评估模型和Text2Text生成功能,构建了完整的评估体系: 标准化评估维度构建:结合行业标准和公司客服管理要求,构建“态度友好度、问题解决率、话术规范性、响应及时性、合规性”5核心维度,每个维度下设具体评估指标(如态度友好度包含“是否使用问候语、是否耐心解答、 三、项目开发中的踩坑与解决方案这个项目的核心难点在“评估标准的精准落地”和“隐性问题的有效识别”,开发过程中踩了不少坑,分享几个关键问题及解决办法:评估标准理解偏差:初期模型对“问题解决率”的判断不准确 我们优化了情感分析的特征提取规则,结合对话上下文判断情绪,同时增加人工校准环节,将误判案例反馈给模型进行迭代优化;系统性能瓶颈:全量评估时,大量对话同时解析和评分导致系统响应缓慢。

    24110编辑于 2026-01-13
  • 来自专栏腾讯大讲堂的专栏

    渠道质量评估模型

    在这三个维度中,量级和成本是天然的比较好衡量的,而质量则是一种更复杂更综合也更长期的维度,对质量的准确衡量,就显得尤为重要,本文希望结合日常工作中我对腾讯业务场景的理解,通过一些框架性的说明,来为大家构建评估模型提供一些思路 为了同时兼顾准确性和时效性,可采用多段式监控方式,一来对能快速定位到问题的渠道尽早预警来进行优化调整,而难以识别的渠道进行更长期的观察;二来可以通过长期的质量评估来校准短期质量评估模型 稳定可靠:质量监控最终产出的结果需要处于相对稳定的状态 如果某些渠道模糊归因太高,可能存在异常风险(有些渠道由于自身特殊性,仅有模糊归因,不在这个得分的讨论范围之内) Step2.指标筛选 在渠道质量评估初期,我们手上可能有一堆的指标,最终究竟用哪些指标 长期渠道质量评估(LTV预测) LTV可以通过各种各样的方式进行拟合,但是有三个点需要特别注意: LTV视具体的用途需要来评估是否要把渠道和用户终端机型等固有特征加到模型中,这些特征加入到模型中固然可以增加模型的准确性 模型的预测手段很多,这里不再赘述,仅对模型评估进行一些说明。

    3.3K40发布于 2020-11-02
领券