首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    星辰AI大模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 本篇文章主要来体验一下这个模型,测试一下笔者比较关心的文学创作以及代码生成方面的效果。 0x1. TeleChat-7B开源亮点 TeleChat-7B最大的亮点在于其开源的全面性。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础大模型。 总结 总的来说,TeleChat-7B具有一定的文创能力和代码能力,对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    67320编辑于 2024-02-22
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语大模型实战营》第7课 学习笔记:OpenCompass 大模型评测实战

    评测对象 本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass 以基座模型和对话模型作为重点评测对象。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 & AgentLego 智能体应用搭建 《书生·浦语大模型实战营》第7课 学习笔记:OpenCompass 大模型评测实战 课程资源 学员手册 https://aicarrier.feishu.cn/

    76710编辑于 2024-07-01
  • 来自专栏全栈程序员必看

    联想开天 N7 评测

    开天 N7 系列笔记本电脑基于兆芯开先 KX-6640MA 处理器平台,搭配 16GB 双通道内存和 512GB NVMe 高速 SSD,辅以国产 BIOS、OS 定制调优;1.29kg 超轻单机重量, 联想开天 N7更多使用感受和评价:http://www.adiannao.cn/dy KX-6640MA 处理器采用了陆家嘴架构,16nm 工艺,4 核 4 线程,2.2GHz-2.6GHz,4MB

    65030编辑于 2022-08-25
  • 来自专栏GiantPandaCV

    使用OpenCompass评测rwkv模型教程

    前言 继续MLC-LLM 支持RWKV-5推理以及对RWKV-5的一些思考文章里面提到的想法,探索一下使用OpenCompass来评测RWKV模型,对模型的实际表现有一个更客观的了解。 我在尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。这里主要是记录如何跑通,后续可能会跑一下榜单去对比一下其它的模型模型部分添加了下面的2个文件: 然后在评测数据集方面我挑选了和 RWKV-5 的训练进展(之二),与 SotA GPT 模型的性能对比(https://zhuanlan.zhihu.com/p/664079347 如果在评测过程中因为一些奇怪的原因挂掉了,但是又不是模型的问题,我们可以使用python run.py configs/eval_rwkv5_3b.py -r来续测,这样会在outputs下面最新时间戳的文件夹下复用已经评测的数据继续评测 结论 尝试用OpenCompass跑一下RWKV模型,尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。

    85010编辑于 2023-12-04
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    47310编辑于 2025-08-13
  • 模型评测|国产模型偷摸删库且装聋作哑

    引言 MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 这可能也是诸多同学心中疑惑的事情,如果有个结论,不是软广,而是民间客观的三方评测,就可以判断要不要用 MiniMax M2 替换对国人不友好又贵一批的 Claude 4.5了,今天我就结合我这一段时间的使用测试对比 MiniMax M2 属于 Coding 第一梯队的模型 评测环境 • Code Agent:Claude Code v2.0.30 • LLM:Claude Sonnet 4.5 VS MiniMax 因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型 这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧

    97910编辑于 2025-11-13
  • 来自专栏机器之心

    7 Papers & Radios | RobustART评测模型鲁棒性;用Transformer做风格迁移遭质疑

    (ARchitecture Design)和训练技巧(Training Technique)且针对多种噪音类型的模型鲁棒性评测基准——RobustART。 该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性(对抗噪音、自然噪音、系统噪音等)的影响 。 这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。 (from Dacheng Tao) 7. (from Claire Tomlin, Stefan Schaal) 7.

    72650发布于 2021-09-27
  • 来自专栏Java技术进阶

    基于OpenCompass的大模型评测实践

    为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 InternLM-Chat-7B 模型在 C-Eval 数据集上的性能。

    1.3K10编辑于 2024-03-08
  • 来自专栏算法进阶

    大语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。 例如,北京大学、清华大学和北京智源人工智能研究院等研究机构联合提出了一个评估汉语理解和生成能力的评测基准 CUGE,涵盖了 7 种重要的语言功能,包括字句级别的语言理解能力、语篇级别的语言理解能力、信息获取和问答能力 它筛选出应用性的任务作为评测重点,并选择部分主要评测数据。HELM明确了7评测指标,如准确率,以及7个更具针对性的评估维度,如语言能力、推理能力等。 PandaLM由LLaMA-7 B[136]调优得到,利用大语言模型的泛化能力,能够通过对指令的设计更好地抓住不同生成任务上对评测需求的微妙差异,如简洁性、清晰度、全面性、正式性等。 人机协作评测:尝试提出结合基于模型评测和人类评测的有效方式,从而提高人类评测的可用性和基于模型评测的准确性。

    1.4K10编辑于 2024-07-31
  • 来自专栏AI技术探索和应用

    常见的大模型评测数据集

    开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness AI2 ARC https://huggingface.co/datasets/ai2_arc 一个由7,787个真正的小学水平的多项选择科学问题组成的新数据集,旨在鼓励对高级问答的研究。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.3K12编辑于 2024-03-13
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,大模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 三、司南评测体系2.0司南评测体系2.0是一个全面升级的评测工具,它包括:工具链:提供一套完整的评测工具,支持不同模型和任务的评测。基准:建立标准化的评测基准,方便比较不同模型的性能。 榜单:定期更新的模型性能榜单,展示顶尖模型的性能。自定义数据集:支持用户自定义数据集进行评测。多模态评测:支持图像、视频等多模态数据的评测

    37910编辑于 2024-12-06
  • 代码模型评测:能否取代 GitHub Copilot?

    DeepSeek 代码模型评测:能否取代 GitHub Copilot?随着人工智能技术的快速发展,AI 编程助手已成为开发者提高工作效率的重要工具。 然而,DeepSeek 代码模型(DeepSeek Code)近期的出现,给开发者带来了新的选择。DeepSeek Code 是否具备挑战 GitHub Copilot 的能力? 本文将对 DeepSeek 代码模型进行全面评测,并探讨它是否能够取代 GitHub Copilot。1. DeepSeek Code 简介DeepSeek Code 是 DeepSeek AI 开发的一款 专注于代码生成、补全、优化 的大模型,目标是帮助程序员提高开发效率,减少重复性劳动,优化代码质量。

    1.1K10编辑于 2025-03-20
  • 模型评测体系介绍及中文大模型表现

    1.测试指标体系(测什么) 大模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 自动化评估会计算特定指标完成模型输出和标准答案的对比。人工评估的方式对评测人员的资质或者评测方法有一定的要求。较为前沿的,有通过大模型作为裁判,对其它模型进行评估的研究。 近年大模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢?

    2.8K20编辑于 2025-05-30
  • 来自专栏AI SPPECH

    58_大模型评估与评测:构建科学的多维度评测体系

    引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 实时性能监测:建立24/7实时性能监测系统 安全合规测试:进行全面的金融合规性测试 评估结果: 最终选择了FinGPT 2.0作为主要模型,并结合Claude 3 Ultra处理敏感金融分析任务 模型在市场预测准确度方面达到

    1.3K11编辑于 2025-11-13
  • 【AGI-Eval评测报告】混元图像2.0模型开箱评测模型实测效果大放送!

    目录:1.腾讯混元图像 2.0 模型介绍2.腾讯混元图像 2.0 模型开箱评测   2.1 评测核心结论   2.2 实时文生图评测   2.3 实时绘画板评测1. 2.多语义理解能力:腾讯混元图像 2.0 模型引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,语义响应速度遥遥领先,在GenEval评测集上,腾讯号称以0.9597 模型体验入口:https://hunyuan.tencent.com/2.模型开箱评测那么 ,腾讯混元图像 2.0 模型在实测表现中又如何呢?首先来看本次开箱评测的核心结论。 2.1 评测核心结论AGI-Eval 大模型评测社区第一时间做了模型评测评测结论如下:腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破,尤其适合快速获取基础视觉素材或日常娱乐图像。 prompt 7:蒙娜丽莎的微笑这幅画,让蒙娜丽莎用手挡住嘴哭泣prompt 中前半句可以满足,画面的还原度较高,输入prompt的后半句可以看到眼泪的痕迹,虽然语义上可以对齐,但与现实并不相符,哭泣时的表情仍在微笑

    86710编辑于 2025-05-23
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 对大模型评测需要从模型本身特点,通用还是专业领域,多模还是单模、主要能力是问题解答还是代码编写等多方面考虑,之后需要考虑评测的目的,是为了验证模型的哪些特点,然后选择评测数据集。 03 评测目的 评测最终为结果服务,达成目的需要确定评测策略。在具体评测需要考虑被评测对象自身特点,在完整的大模型基准评测体系下,选择合适的评测方式、评测数据集、评测指标及评测工具。 04 评测策略 大模型评测的目的不同,有不同评测策略,如大模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 例如:GPT-4(由OpenAI开发) 06 大模型基准评测体系 由于各种大模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。

    1.1K10编辑于 2025-06-25
  • 13.4 大语言模型文生图能力评测

    13.4 大语言模型文生图能力评测模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 :https://lukashoel.github.io/text-to-room/ [6] HELM:https://crfm.stanford.edu/helm/classic/latest/ [7]

    95110编辑于 2025-04-07
  • 来自专栏机器之心

    全球140+大模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 -34B 和上海人工智能实验室 Intern-XComposer2-VL-7B 紧随其后。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。 2023 年 6 月,由智源研究院与多个高校团队共建的 FlagEval 大模型评测平台上线,迄今为止已完成了 1000 多次覆盖全球多个开源大模型评测,并持续发布评测结果,广泛地积累了国际领先的评测技术 智源研究院牵头成立了 IEEE 大模型评测标准小组 P3419,组织 20 余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    87810编辑于 2024-05-22
  • 来自专栏AIGC新知

    使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

    为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。 斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 并准备好数据集后,可以通过以下命令评测 InternLM-Chat-7B 模型在 C-Eval 数据集上的性能。

    1.4K10编辑于 2024-10-08
  • 来自专栏OpenMMLab

    Hugging Face 大模型评测榜集合收录 OpenCompass!

    然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 Collection: https://huggingface.co/collections/open-llm-leaderboard/the-big-benchmarks-collection-64faca6335a7fc7d4ffe974a OpenCompass 支持大部分主流 HuggingFaces 上的大语言模型评测,只需几行简单配置,便可轻松开展模型评测。 自 7 月份发布以来,获得了企业界和学术界的大量关注,被阿里巴巴、腾讯、清华大学等数十所企业与科研机构广泛应用于大语言模型和多模态模型研发。 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。

    3.4K10编辑于 2023-09-21
领券