首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    基准测试能验证模型效果,促进模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升模型的安全合规性。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型的评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE 》(发送“模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏数据派THU

    中文对话模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话模型开源社区迎来了一名浓眉大眼的新成员! 开源地址:https://github.com/LianjiaTech/BELLE 该项目目前已经开源了如下内容,并且在持续更新中: 150万中文指令微调数据集 以Bloomz-7b1-mt(70亿参数 以LLAMA-7b(70亿参数)为基础,分别在60万,200万数据上进行指令微调后得到的模型Checkpoint。 对以上模型进行量化后的轻量化模型,便于部署、推理。 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 模型效果比较 以Bloomz-7b1-mt为基础,BELLE团队评估了不同数量的instruction tuning数据,对模型效果的影响。

    98220编辑于 2023-04-05
  • 来自专栏siri的开发之路

    开源中文类LLaMA语言模型汇总

    近日笔者在调研开源中文模型时发现LLaMA可以说是今年最受欢迎的语言模型之一,LLaMA的开源带动了语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。 然而,汉语作为一种世界互联网中的“小众”语言(仅占总体量约5%),模型构建时往往不会针对汉语进行设计,例如ChatGPT的汉语能力远弱于英文能力,而LLaMA词表中仅包含少量汉字,并且几乎没有在中文上进行训练 (按模型发布的时间顺序进行介绍)Chinese-LLaMA-Alpaca (2023/03/28)GitHub地址由哈工大-科大讯飞联合实验室发布,该项目发布了基于LoRA训练的7B和13B 中文LLaMA 图片BELLE(2023/04/19)GitHub地址由LianjiaTech发布包括在LLaMA7B基础上增量预训练扩展中文词表的模型,以及基于多样化开源数据训练后的LLaMA-7B模型。 图片Ziya-LLaMA(2023.05.17)huggingfaceIDEA研究院发布的姜子牙通用模型(Ziya-LLaMA-13B-v1),基于LLaMA-13B扩充中文词表,进行千亿token量级的预训练

    2.6K52编辑于 2023-09-24
  • 来自专栏机器学习AI算法工程

    【开源】度小满中文金融对话模型

    金融一直是轩辕模型重点关注的领域和主要应用目标,因此我们首先在金融场景评测了XuanYuan-6B模型。 除金融外,我们也注重轩辕模型的通用能力,因此我们也在多个主流评测集上进行了模型评测,观察轩辕模型在知识、逻辑、代码等通用能力上的表现。评测结果如下表所示。 从表中结果可以看出,在五个评测集上,XuanYuan-6B的表现均超越了类似尺寸的LLaMA2-7B和LLaMA2-13B模型,展现出了强大的通用能力。 在中文相关场景下,XuanYuan-6B甚至可超越更大尺寸的LLaMA2-70B模型。 值得注意的是,在上述所有评测中,XuanYuan-6B均进行了考试场景增强,具体细节可见我们的技术报告。 从评测结果来看,XuanYuan-13B具备很强的通用能力和金融能力,其性能甚至可比肩更大尺寸的模型,做到了以小搏

    73210编辑于 2024-04-18
  • 来自专栏我爱计算机视觉

    中文提出LISA模型:解锁多模态模型“推理分割”能力

    本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 模型,解锁多模态模型“推理分割”能力。 因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态模型。 而且LISA还表现出高效的训练特性,只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代,即可完成7B模型的训练。 技术方案概述 首先将图像和文本送到多模态-语言模型 F(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。 如果存在标记,则将标记在多模态模型 F 最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征 f 一起传递给解码器(其中分割视觉特征 f 由输入编码器 对图像进行编码得到)。

    1.5K70编辑于 2023-08-31
  • 来自专栏数据派THU

    详解:7经典回归模型

    来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7经典的回归分析模型。 什么是回归分析? 4.它需要的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的,即不具有多重共线性。 7.如果因变量是多类的话,则称它为多元逻辑回归。 3. Polynomial Regression多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。

    1.7K41编辑于 2023-04-18
  • 来自专栏大模型应用

    模型应用:模型 MapReduce 全解析:核心概念、中文语料示例实现.12

    模型训练中,MapReduce被广泛应用于数据处理、特征提取和分布式训练。 模型 MapReduce 是将分布式计算经典的 MapReduce 范式与模型能力结合的技术架构,核心解决模型处理超长文本 / 海量任务时的算力瓶颈、上下文窗口限制、任务并行效率低 三问题。 , "深度学习技术在自然语言处理中取得了显著进展,特别是语言模型的出现。", "中文自然语言处理面临独特挑战,包括分词、词性标注和语义理解等问题。" 语言模型 : 2 13. 中文 : 2 14. 包括 : 2 15. 模型 MapReduce 则适配语义任务,针对超长文本等场景,依托本地 GPU/CPU 运行模型

    22732编辑于 2026-02-09
  • 来自专栏NLP/KG

    基于bloomz-7b指令微调的中文医疗问诊模型,实现智能问诊、医疗问答

    基于bloomz-7b指令微调的中文医疗问诊模型,实现智能问诊、医疗问答 码源见文末 1.项目简介 本项目开源了基于医疗指令微调的中文医疗问诊模型:明医 (MING)。 目前模型的主要功能如下: 医疗问答:对医疗问题进行解答,对案例进行分析。 智能问诊:多轮问诊后给出诊断结果和建议。 chatgpt ming-7B 根据您提供的体检指标,我将对其中涉及的各项指标进行分析和建议:血压:您的收缩压为130 mmHg,舒张压为75 mmHg,属于正常范围。 7. 血脂四项:您的总胆固醇和甘油三酯的值都高于正常范围,高密度脂蛋白胆固醇的值低于正常范围,低密度脂蛋白胆固醇的值接近正常范围。建议您控制饮食,适量运动,如有需要请咨询医生。8. 这个病对生活影响吗?5. 生活习惯方面有没有建议?尤其是她平常还做瑜伽,要不要紧? chatgpt ming-7B 我可以理解您和您母亲对这个情况的担忧。

    74410编辑于 2024-02-22
  • 来自专栏自然语言处理(NLP)论文速递

    中文为中心!复旦 & 北大 | 从头训练中文模型:CT-LLM

    引言 当前,绝大多数模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。 然而,今天给大家分享的这篇文章旨在从头开始训练中文模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。 目前,关于非英语模型的探索仍然是一个未知的领域。 「泛化不确定性」 随着对于精通双语或多语功能的模型的需求日益增长,特别是能够适应中文语言应用的模型。 为满足这种需求,人们已经采取了多种策略来增强LLMs的多语言能力,特别强调在预训练阶段加入更高比例的中文Token,或者采用监督式微调(SFT)等技术来激活模型中文语言功能。 总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。

    1.2K10编辑于 2024-04-12
  • 来自专栏大模型应用

    模型应用:模型参数调优:结合本地模型对比多种组合探索差异.7

    引言 在模型的应用中,参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同,模型的生成参数更像是一组精密的调控旋钮,它们不改变模型的基础知识,而是影响模型如何思考和表达。 理解这些参数的本质,不仅能够提升模型输出的质量,更是将模型从玩具转变为工具的关键一步。 今天我们将从理论基础到实践应用,全面解析模型的核心参数体系,详细的介绍模型推理中常用的参数项,并通过本地模型示例展示参数调整对模型效能的影响。常见参数项:max_length:生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """模型参数测试器 分步调优流程图五、总结 模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。

    70732编辑于 2026-02-04
  • 来自专栏大模型应用

    模型应用:Mistral-7B-Instruct 中文超长文本处理实战全解析.59

    2. nf4 量化类型: 专为语言模型设计的量化类型,适配 Mistral 的参数分布,相比普通 4bit 量化,中文回答质量损失 < 5%;3. bfloat16 计算精度: 推理时临时将参数提升至 query = "请总结上述文本的核心内容,并说明滑动窗口注意力如何帮助<em>大</em>语言<em>模型</em>处理超长文本?" ,核心逻辑以“量化降显存 + 滑动窗口提效率 + 中文适配保质量”为三支柱。 近年来,随着深度学习、大数据和算力的突破,语言模型(Large Language Models, LLMs)成为 AI 发展的核心驱动力。 ,并说明滑动窗口注意力如何帮助语言模型处理超长文本?"

    27844编辑于 2026-03-28
  • 来自专栏NLP/KG

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练,进一步提升了中文基础语义理解能力 图片 以ChatGPT、GPT-4等为代表的语言模型(Large Language Model 然而,由于语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。 为了促进模型中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca模型。 下图是中文Alpaca-Plus-7B模型在本地CPU量化部署后的实际体验速度和效果。 请参考:Release Note 2023/03/28 正式开源中文LLaMA、Alpaca模型,目前提供7B版本下载体验 2. 28.4 需要注意的是,综合评估模型能力仍然是亟待解决的重要课题,合理辩证地看待模型相关各种评测结果有助于模型技术的良性发展。

    2.8K00编辑于 2023-07-29
  • 来自专栏GiantPandaCV

    星辰AI模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础模型。 在评论评语方面,TeleChat7B可能是因为SFT的缘故会拒答一些问题,以及对于上面的第二个prompt回答的质量比较低。而对于上面的第一个问题,也出现了经典的模型幻觉问题。 总结 总的来说,TeleChat-7B具有一定的文创能力和代码能力,对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    67320编辑于 2024-02-22
  • 模型下半场:7个趋势判断

    推理模型能力的持续提升,推动模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了模型下半场的新赛程。个人智能体潜力初步显现,行业应用渐次走深,开源开放日益成为模型的核心竞争力组成。 虽然去年以来,我国AI高端芯片企业数量和能力均有提升,华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片,但由于台积电暂停7nm产能供应及HBM禁令等限制,国产高端芯片的制造仍面临挑战 受DeepSeek效应刺激,国内外模型公司正加速推出下一代模型,如OpenAI的基础模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7; 如,混元文生图模型是业内首个中文原生的DiT架构文生图开源模型;文生视频模型是当前最大的视频开源模型,且全面开源,包含模型权重、推理代码、模型算法等完整模型模型的数据通信开放协议则可以让模型更方便地调用各种工具,从而自主完成各类任务。

    59320编辑于 2025-04-02
  • 来自专栏深度学习自然语言处理

    国际中文教育模型“桃李” 1.0发布

    随着ChatGPT引起全社会的关注,及各类语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。 国际中文教育人士纷纷展开了对模型的探讨:模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师? 然而,目前通用领域的模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的模型“桃李”(Taoli)1.0,以期成为模型在国际中文教育领域应用的引玉之砖。 “桃李”(Taoli) · “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了模型在该领域多项任务上的理解能力。 总结与展望 通过对中文基座模型的指令微调,我们推出了国际中文教育模型“桃李”(Taoli)1.0。 “桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。

    1.1K30编辑于 2023-08-22
  • 来自专栏Datawhale专栏

    《开源模型食用指南》发布,7个小时,一杯奶茶速通模型

    Datawhale开源 开源贡献:Datawhale self-llm团队 前 言 《开源模型食用指南》是一个围绕开源模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属模型教程,针对各类开源模型提供包括环境配置 、本地部署、高效微调等技能在内的全流程指导,简化开源模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源模型,帮助开源、自由的模型更快融入到普通学习者的生活中。 模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)模型、多模态模型和科学计算模型等。 同时,本项目对本地硬件基本没有要求,全程都需要在云服务器上运行,AutoDL租一台3090服务器,每小时需要1.66元,一杯奶茶就可以租一块3090愉快的学习7个小时! 理论上7小时就可以将本项目的所有教程全部跑通一遍(除全量微调外),一杯奶茶速通模型,掌握开源模型部署的核心科技。 文章最后 为什么要做这样一个开源项目?

    1.6K21编辑于 2024-04-24
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第7课 学习笔记:OpenCompass 模型评测实战

    评测对象 本算法库的主要评测对象为语言模型与多模态模型。我们以语言模型为例介绍评测的具体模型类型。 数据集介绍 Skywork/ChineseDomainModelingEval 数据集收录了 2023 年 9 月至 10 月期间发布的高质量中文文章,涵盖了多个领域。 C-Eval 数据集上的性能 其他学习内容 参考文献 本人学习系列笔记 《书生·浦语模型实战营》第1课 学习笔记:书生·浦语模型全链路开源体系 《书生·浦语模型实战营》第2课 学习笔记:轻松玩转书生 ·浦语模型趣味 Demo 《书生·浦语模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆) 《书生·浦语模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent 《书生·浦语模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践 《书生·浦语模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建 《书生·浦语模型实战营

    76810编辑于 2024-07-01
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文模型研发如火如荼,但中文评价基准却很少。 DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文模型。 C-Eval,来帮助中文社区研发模型。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。

    1.4K31编辑于 2023-08-08
  • 来自专栏山行AI

    基于中文法律知识的语言模型——LaWGPT

    我们相信未来会有越来越多的模型出现,AI正在逐渐平民化,将来每个人都可以利用模型轻松地做出自己的AI产品。 最近这些天,github的排行榜每天都在发生着变化。 昨天我们介绍了位于榜首的用于生成图片的StableStudio,今天我们介绍一款目前高居第二位的基于中文法律知识的模型—LaWGPT。 LaWGPT:基于中文法律知识的语言模型 LaWGPT 是一系列基于中文法律知识的开源语言模型。 该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了模型在法律领域的基础语义理解能力。 -7B:法律基座模型,使用 50w 中文裁判文书数据二次预训练•LaWGPT-7B-beta1.0:法律对话模型,构造 30w 高质量法律问答数据集基于 Legal-Base-7B 指令精调• 2023

    4.1K20编辑于 2023-06-14
  • 来自专栏大模型应用

    模型应用:模型训练数据治理:噪声过滤与高质量中文语料构建实践.40

    尤其对于中文模型而言,中文语料存在来源繁杂、噪声冗余、格式不统一、语义歧义等问题,直接影响模型的理解能力、生成准确性与泛化能力。 对于中文模型,数据治理还需要兼顾中文语言特性:如多音字、一词多义、句法结构灵活性、传统文化与现代网络用语的融合等。2. 2025技术:中文模型语义一致性治理突破4. ,对于中文模型而言,更需要兼顾语言特性与文化内涵。 随着模型技术的发展,数据治理将成为一种的趋势,我们可以利用模型自身进行数据清洗与质检,实现以模型治理数据,以数据优化模型的闭环;同时可以针对不同行业、不同场景的需求,构建专属的高质量中文语料库。

    36832编辑于 2026-03-09
领券