首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏IT开发技术与工作效率

    Win10音乐评测

    Win10音乐评测: 网易云音乐,MV功能最佳,有下一首播放那个盘就比歌词重要? QQ音乐,中规中矩,有下一首播放,背景土。 酷我音乐,图片赏心悦目。 百度&千千静听,能缩很小,背景土。 酷狗居然没有win10版? ? QQ&网易 ? 酷我&百度

    65450发布于 2018-06-27
  • 来自专栏ADAS性能优化

    小米米10 Pro相机评测--DXOMARK

    Mi 10 Pro是庆祝这一场合的合适设备吗?阅读我们的完整相机评论以了解更多信息。 在下面的比较中,您可以看到Mi 10 Pro图像显示出比Mate 30 Pro 5G和iPhone 11 Pro Max更好的动态范围,尤其是在框架的高光区域中,Mi 10 Pro保留了明显更多的细节。 Mi 10 Pro能够捕捉出色的细节,并获得85分,为Texture赢得了新的最高分。性能再次与CC9高级版非常相似,但Mi 10 Pro的边缘略有改进,在弱光下最为明显。 但是,噪点几乎与CC9 Pro Premium Edition总体上处于同一水平,而Mi 10 Pro具有出色的质感/噪点平衡 Mi 10 Pro的自动对焦性能非常好,与我们从CC9 Pro Premium 尽管如此,在下面的闪烁肖像示例中,您仍可以看到Mi 10 Pro具有出色的动态范围,可以很好地曝光背景和前景中较暗的被摄体。华为的表现也不错,但Mi 10 Pro和Mi CC9之间的区别非常明显。

    5.3K20编辑于 2022-05-13
  • 来自专栏GiantPandaCV

    使用OpenCompass评测rwkv模型教程

    前言 继续MLC-LLM 支持RWKV-5推理以及对RWKV-5的一些思考文章里面提到的想法,探索一下使用OpenCompass来评测RWKV模型,对模型的实际表现有一个更客观的了解。 我在尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。这里主要是记录如何跑通,后续可能会跑一下榜单去对比一下其它的模型模型部分添加了下面的2个文件: 然后在评测数据集方面我挑选了和 RWKV-5 的训练进展(之二),与 SotA GPT 模型的性能对比(https://zhuanlan.zhihu.com/p/664079347 \n有一项年金,前3年无流入,后5年每年年初流入500万元,假设年利率为10%,(P/A,10%,5)=3.7908,(P/S,10%,3)=0.7513,(P/S,10%,2)=0.8264,其现值为 结论 尝试用OpenCompass跑一下RWKV模型,尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。

    85010编辑于 2023-12-04
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    47410编辑于 2025-08-13
  • 模型评测|国产模型偷摸删库且装聋作哑

    引言 MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 这可能也是诸多同学心中疑惑的事情,如果有个结论,不是软广,而是民间客观的三方评测,就可以判断要不要用 MiniMax M2 替换对国人不友好又贵一批的 Claude 4.5了,今天我就结合我这一段时间的使用测试对比 MiniMax M2 属于 Coding 第一梯队的模型 评测环境 • Code Agent:Claude Code v2.0.30 • LLM:Claude Sonnet 4.5 VS MiniMax 因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型 这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧

    97910编辑于 2025-11-13
  • 来自专栏Java技术进阶

    基于OpenCompass的大模型评测实践

    为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。 客观评测能便捷地评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力,主观评测能评估用户对模型回复的真实满意度,OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。

    1.3K10编辑于 2024-03-08
  • 来自专栏AI技术探索和应用

    常见的大模型评测数据集

    开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness MATH https://github.com/hendrycks/math MATH 是一个由数学竞赛问题组成的评测集,由 AMC 10、AMC 12 和 AIME 等组成,包含 7.5K 训练数据和 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.3K12编辑于 2024-03-13
  • 来自专栏算法进阶

    大语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。 在评估指标方面,同一任务下的评测数据集可能产生模型A在某个评测数据集上优于模型B,但在另一个评测数据集上又劣于模型B的矛盾情况。 为了克服这些局限性,研究者开始探索基于模型评测方法,尤其是基于大语言模型评测方法。 更可靠的评测方法:进一步发展更加可靠的基于模型评测方法,增强评测结果的可信度。 知识增强的评测方法:探索将特定知识注入到大语言模型中的方法,从而提高基于大语言模型评测方法在某些专业领域的表现。 人机协作评测:尝试提出结合基于模型评测和人类评测的有效方式,从而提高人类评测的可用性和基于模型评测的准确性。

    1.4K10编辑于 2024-07-31
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,大模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 三、司南评测体系2.0司南评测体系2.0是一个全面升级的评测工具,它包括:工具链:提供一套完整的评测工具,支持不同模型和任务的评测。基准:建立标准化的评测基准,方便比较不同模型的性能。 榜单:定期更新的模型性能榜单,展示顶尖模型的性能。自定义数据集:支持用户自定义数据集进行评测。多模态评测:支持图像、视频等多模态数据的评测

    37910编辑于 2024-12-06
  • 代码模型评测:能否取代 GitHub Copilot?

    DeepSeek 代码模型评测:能否取代 GitHub Copilot?随着人工智能技术的快速发展,AI 编程助手已成为开发者提高工作效率的重要工具。 然而,DeepSeek 代码模型(DeepSeek Code)近期的出现,给开发者带来了新的选择。DeepSeek Code 是否具备挑战 GitHub Copilot 的能力? 本文将对 DeepSeek 代码模型进行全面评测,并探讨它是否能够取代 GitHub Copilot。1. ) 代码错误修复我们提供一个存在 Bug 的 Python 代码,让 AI 帮助修复:def add_numbers(a, b): return a + bprint(add_numbers("10 修复的版本def add_numbers(a, b): """ 将输入转换为整数后相加 """ return int(a) + int(b)print(add_numbers("10

    1.1K10编辑于 2025-03-20
  • 模型评测体系介绍及中文大模型表现

    1.测试指标体系(测什么) 大模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 自动化评估会计算特定指标完成模型输出和标准答案的对比。人工评估的方式对评测人员的资质或者评测方法有一定的要求。较为前沿的,有通过大模型作为裁判,对其它模型进行评估的研究。 近年大模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢?

    2.8K20编辑于 2025-05-30
  • 来自专栏AI SPPECH

    58_大模型评估与评测:构建科学的多维度评测体系

    引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 大模型评估与评测是一个复杂而系统的工程

    1.3K11编辑于 2025-11-13
  • 来自专栏软件绿色联盟动态

    请查收→10月安全专项评测报告

    一、10月测试情况回顾 10月共检测950款应用,未达标应用282款,其中228款应用未通过安全标准检测,占未达标应用的80.9%,占比最高。

    61710编辑于 2022-12-18
  • 2026年10款SRM管理系统深度评测

    2026年10款SRM管理系统深度评测一、云表SRM管理系统(第一)核心定位国内唯一无代码开发工业级SRM的标杆产品,专为制造业、能源、化工等复杂供应链场景设计,以"低代码+全链路集成+柔性定制"三大核心能力 功能能力特色供应商全生命周期管理入驻-认证-考察-合作-绩效-退出闭环自定义12+项KPI指标,工商/司法风险秒级预警,支持多级供应商分级管控智慧寻源与招投标在线询报价、密封竞价、多维度TCO评估实时博弈竞价,标准品采购成本直降10%

    54910编辑于 2026-03-12
  • 【AGI-Eval评测报告】混元图像2.0模型开箱评测模型实测效果大放送!

    目录:1.腾讯混元图像 2.0 模型介绍2.腾讯混元图像 2.0 模型开箱评测   2.1 评测核心结论   2.2 实时文生图评测   2.3 实时绘画板评测1. 2.多语义理解能力:腾讯混元图像 2.0 模型引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,语义响应速度遥遥领先,在GenEval评测集上,腾讯号称以0.9597 模型体验入口:https://hunyuan.tencent.com/2.模型开箱评测那么 ,腾讯混元图像 2.0 模型在实测表现中又如何呢?首先来看本次开箱评测的核心结论。 2.1 评测核心结论AGI-Eval 大模型评测社区第一时间做了模型评测评测结论如下:腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破,尤其适合快速获取基础视觉素材或日常娱乐图像。 2.2 实时文生图评测那么首先来看实时文生图功能,我们将从无参考图和有参考图两个方向进行评测

    86710编辑于 2025-05-23
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 对大模型评测需要从模型本身特点,通用还是专业领域,多模还是单模、主要能力是问题解答还是代码编写等多方面考虑,之后需要考虑评测的目的,是为了验证模型的哪些特点,然后选择评测数据集。 03 评测目的 评测最终为结果服务,达成目的需要确定评测策略。在具体评测需要考虑被评测对象自身特点,在完整的大模型基准评测体系下,选择合适的评测方式、评测数据集、评测指标及评测工具。 04 评测策略 大模型评测的目的不同,有不同评测策略,如大模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 例如:GPT-4(由OpenAI开发) 06 大模型基准评测体系 由于各种大模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。

    1.1K10编辑于 2025-06-25
  • 13.4 大语言模型文生图能力评测

    13.4 大语言模型文生图能力评测模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 www.cluebenchmarks.com/superclue.html [8]HPS:https://arxiv.org/abs/2306.09341 [9]TIFA:https://arxiv.org/abs/2303.11897 [10

    95110编辑于 2025-04-07
  • 来自专栏机器之心

    全球140+大模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。 2023 年 6 月,由智源研究院与多个高校团队共建的 FlagEval 大模型评测平台上线,迄今为止已完成了 1000 多次覆盖全球多个开源大模型评测,并持续发布评测结果,广泛地积累了国际领先的评测技术 智源研究院牵头成立了 IEEE 大模型评测标准小组 P3419,组织 20 余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    87810编辑于 2024-05-22
  • 来自专栏OpenMMLab

    Hugging Face 大模型评测榜集合收录 OpenCompass!

    然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的大语言模型评测,只需几行简单配置,便可轻松开展模型评测。 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 同时我们提供大量开源模型在该数据集上的评测结果,支持更进一步的数据分析与模型分析。

    3.4K10编辑于 2023-09-21
  • 来自专栏GiantPandaCV

    星辰AI大模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 首先,该项目不仅开源了1TB训练预料,而且还在仓库里开源了基于LoRA的详细微调方案,这为研究人员和开发者提供了极大的便利,让我们能够更好地理解和应用这个大模型模型。 演讲稿生成 用户: 写一个关于环保的演讲稿,5~10分钟的,内容不要太深奥,举一些相关的例子 TeleChat-7B: 尊敬的评委、亲爱的同学们: 大家好!今天我想和大家分享一下环保的重要性。 记录文 用户: 写一篇关于房地产的工作日志 TeleChat-7B: 房地产工作日志 日期:2021年7月10日 今天是我在房地产公司工作的第十天。 但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。

    67320编辑于 2024-02-22
领券