首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    现在的主流方式是使用基准测试(Benchmark)来对模型的能力进行全面量化的评估。 基准测试能验证模型效果,促进模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升模型的安全合规性。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型的评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE 》(发送“模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.7K20编辑于 2025-05-30
  • 来自专栏数据派THU

    中文对话模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话模型开源社区迎来了一名浓眉大眼的新成员! 最新项目BELLE(BE Large Language model Engine)基于BLOOM和LLAMA针对中文做了优化,模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 ,有助于模型在各种中文场景中的表现。 模型模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。

    97320编辑于 2023-04-05
  • 来自专栏siri的开发之路

    开源中文类LLaMA语言模型汇总

    近日笔者在调研开源中文模型时发现LLaMA可以说是今年最受欢迎的语言模型之一,LLaMA的开源带动了语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。 然而,由于LLaMA是英文原生模型,对中文的支持较弱,因此训练中文模型需要额外的训练和对齐。本文介绍了笔者在调研过程中整理的一些具有代表性的基于LLaMA中文开源模型,供读者对比这些方案的异同。 然而,汉语作为一种世界互联网中的“小众”语言(仅占总体量约5%),模型构建时往往不会针对汉语进行设计,例如ChatGPT的汉语能力远弱于英文能力,而LLaMA词表中仅包含少量汉字,并且几乎没有在中文上进行训练 图片Ziya-LLaMA(2023.05.17)huggingfaceIDEA研究院发布的姜子牙通用模型(Ziya-LLaMA-13B-v1),基于LLaMA-13B扩充中文词表,进行千亿token量级的预训练 ,使模型具备中文能力。

    2.6K52编辑于 2023-09-24
  • 来自专栏机器学习AI算法工程

    【开源】度小满中文金融对话模型

    金融一直是轩辕模型重点关注的领域和主要应用目标,因此我们首先在金融场景评测了XuanYuan-6B模型。 除金融外,我们也注重轩辕模型的通用能力,因此我们也在多个主流评测集上进行了模型评测,观察轩辕模型在知识、逻辑、代码等通用能力上的表现。评测结果如下表所示。 在中文相关场景下,XuanYuan-6B甚至可超越更大尺寸的LLaMA2-70B模型。 值得注意的是,在上述所有评测中,XuanYuan-6B均进行了考试场景增强,具体细节可见我们的技术报告。 评估对比对象为业界开源的类似尺寸的主流模型,我们并采用GSB(Good,Same,Bad)指标来展示评估结果,具体结果如下图所示。 从评测结果来看,XuanYuan-13B具备很强的通用能力和金融能力,其性能甚至可比肩更大尺寸的模型,做到了以小搏

    72010编辑于 2024-04-18
  • 来自专栏我爱计算机视觉

    中文提出LISA模型:解锁多模态模型“推理分割”能力

    本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 模型,解锁多模态模型“推理分割”能力。 尽管当前多模态模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答 因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态模型。 技术方案概述 首先将图像和文本送到多模态-语言模型 F(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。 如果存在标记,则将标记在多模态模型 F 最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征 f 一起传递给解码器(其中分割视觉特征 f 由输入编码器 对图像进行编码得到)。

    1.5K70编辑于 2023-08-31
  • 来自专栏大模型应用

    模型应用:模型 MapReduce 全解析:核心概念、中文语料示例实现.12

    模型训练中,MapReduce被广泛应用于数据处理、特征提取和分布式训练。 模型 MapReduce 是将分布式计算经典的 MapReduce 范式与模型能力结合的技术架构,核心解决模型处理超长文本 / 海量任务时的算力瓶颈、上下文窗口限制、任务并行效率低 三问题。 , "深度学习技术在自然语言处理中取得了显著进展,特别是语言模型的出现。", "中文自然语言处理面临独特挑战,包括分词、词性标注和语义理解等问题。" 语言模型 : 2 13. 中文 : 2 14. 包括 : 2 15. 模型 MapReduce 则适配语义任务,针对超长文本等场景,依托本地 GPU/CPU 运行模型

    20321编辑于 2026-02-09
  • 来自专栏自然语言处理(NLP)论文速递

    中文为中心!复旦 & 北大 | 从头训练中文模型:CT-LLM

    引言 当前,绝大多数模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。 然而,今天给大家分享的这篇文章旨在从头开始训练中文模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。 目前,关于非英语模型的探索仍然是一个未知的领域。 「泛化不确定性」 随着对于精通双语或多语功能的模型的需求日益增长,特别是能够适应中文语言应用的模型。 为满足这种需求,人们已经采取了多种策略来增强LLMs的多语言能力,特别强调在预训练阶段加入更高比例的中文Token,或者采用监督式微调(SFT)等技术来激活模型中文语言功能。 总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。

    1.2K10编辑于 2024-04-12
  • 来自专栏NLP/KG

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练,进一步提升了中文基础语义理解能力 图片 以ChatGPT、GPT-4等为代表的语言模型(Large Language Model 然而,由于语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。 为了促进模型中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca模型。 2023/04/07(https://github.com/ymcui/Chinese-LLaMA-Alpaca/releases/tag/v2.0):发布13B版本中文LLaMA、Alpaca模型, 请参考:Release Note 2023/03/28 正式开源中文LLaMA、Alpaca模型,目前提供7B版本下载体验 2. ,合理辩证地看待模型相关各种评测结果有助于模型技术的良性发展。

    2.8K00编辑于 2023-07-29
  • 来自专栏深度学习自然语言处理

    国际中文教育模型“桃李” 1.0发布

    随着ChatGPT引起全社会的关注,及各类语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。 国际中文教育人士纷纷展开了对模型的探讨:模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师? 然而,目前通用领域的模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的模型“桃李”(Taoli)1.0,以期成为模型在国际中文教育领域应用的引玉之砖。 “桃李”(Taoli) · “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了模型在该领域多项任务上的理解能力。 总结与展望 通过对中文基座模型的指令微调,我们推出了国际中文教育模型“桃李”(Taoli)1.0。 “桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。

    1.1K30编辑于 2023-08-22
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文模型研发如火如荼,但中文评价基准却很少。 DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文模型。 C-Eval,来帮助中文社区研发模型。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。

    1.4K31编辑于 2023-08-08
  • 来自专栏山行AI

    基于中文法律知识的语言模型——LaWGPT

    在ChatGPT引领的AI浪潮下,涌现了一批AI应用,其背后其实蕴含着一个基本事实:AI能力得到了极大突破—模型的能力有目共睹,未来只会变得更强。 我们相信未来会有越来越多的模型出现,AI正在逐渐平民化,将来每个人都可以利用模型轻松地做出自己的AI产品。 最近这些天,github的排行榜每天都在发生着变化。 昨天我们介绍了位于榜首的用于生成图片的StableStudio,今天我们介绍一款目前高居第二位的基于中文法律知识的模型—LaWGPT。 LaWGPT:基于中文法律知识的语言模型 LaWGPT 是一系列基于中文法律知识的开源语言模型。 该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了模型在法律领域的基础语义理解能力。

    4.1K20编辑于 2023-06-14
  • 来自专栏大模型应用

    模型应用:模型训练数据治理:噪声过滤与高质量中文语料构建实践.40

    尤其对于中文模型而言,中文语料存在来源繁杂、噪声冗余、格式不统一、语义歧义等问题,直接影响模型的理解能力、生成准确性与泛化能力。 对于中文模型,数据治理还需要兼顾中文语言特性:如多音字、一词多义、句法结构灵活性、传统文化与现代网络用语的融合等。2. 2025技术:中文模型语义一致性治理突破4. ,对于中文模型而言,更需要兼顾语言特性与文化内涵。 随着模型技术的发展,数据治理将成为一种的趋势,我们可以利用模型自身进行数据清洗与质检,实现以模型治理数据,以数据优化模型的闭环;同时可以针对不同行业、不同场景的需求,构建专属的高质量中文语料库。

    31432编辑于 2026-03-09
  • 来自专栏人工智能极简应用

    AI智能体研发之路-模型篇(三):中文模型开、闭源之争

    一、引言 周日休息在家,只有码字才能缓解焦虑哈哈哈,闲逛CSDN发现又出新的话题活动啦——《开源模型和闭源模型,你怎么看》。“我怎么看?我坐着看,或者躺着看”。 今天我们详细聊聊中文模型开闭源的那些事。 二、中文开/闭源模型概览 大家先看《2024年中文模型全景图》,对国内中文模型开闭源情况有个概念。 Tips:图片引自SuperCLUE中文模型基准测评2024年4月报告,国内领先的模型评测公司,高中室友创办的,没想到毕业多年,兜兜转转进入到了一个行业,如需合作需要可以联系我哈 闭源模型:主要有文心一言 三、开源模型 3.1 优点 1、创新和灵活性:开源模型鼓励创新,研究人员和开发者可以自由探索和改进模型,推动技术的发展。 四、闭源模型 4.1 优点 1、质量和稳定性保障:闭源模型通常由专业的团队开发和维护,经过严格的测试和验证,质量和稳定性相对较高。

    62210编辑于 2024-08-13
  • 来自专栏OpenMMLab

    模型能成为你的私人医生么?中文医疗模型评估基准CMB现已加入OpenCompass

    为此,基于临床医学领域的行业特性,香港中文大学(深圳)的研究人员构造了中文医疗模型评估基准 CMB,该基准通过选择题和复杂病历问诊任务对各模型的医学知识与诊断能力进行了全面评估。 CMB 旨在为中文医学模型的开发者们提供详细且精准的反馈,以加速模型的迭代过程,并推动中文医学领域语言模型的进一步发展与应用。 通过其进行的测评实验发现: GPT-4 在医学领域的表现显著优于其他模型,同时中文通用模型也表现出色; 尽管如此,专门的医疗模型在性能上仍落后于通用模型,表明其有很大的发展空间; CMB 还发现,具有参考答案和评分标准的问诊自动评估与专家评估高度一致 而对于药师,CMB 发现涉及到传统医学的问题难度较大,这也说明了为中文医学领域开发模型的必要性。 研究者真诚地希望,CMB 可以为医学模型的研发者们提供有力的反馈,帮助更快地完善模型,促进中文医学领域语言模型的持续创新和应用。CMB 将在近期加入更多中文模型测评,论文也将在近期更新。

    2.1K30编辑于 2023-11-03
  • 来自专栏机器之心

    中文创意写作能力超GPT-4,「最会写」的中文模型Weaver来了

    尽管模型经常能写出看起来像模像样的文字,但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域,模型常见的 “GPT 文风” 更是让利用模型进行创意写作看起来简单,实际却困难重重。 通过写作领域专业预训练和一套创新性的数据生成和 Alignment 算法,Weaver 在写作领域的各种任务上均取得了领先 GPT-4 和众多中文通用模型的效果,尤其是在生成内容的创意性和文风质量上大幅领先 ,是一款更能写出 “人话” 的模型。 为了解决这个问题,训练出更适合专业写作的模型,波形智能的研究团队分析了为什么 GPT 和其他通用模型都做不好创意写作类任务。 为了评估 Weaver 模型和通用模型的写作能力,波形智能的模型评估团队构建了一个新的用户模型专业写作能力评估的 Benchmark。

    1.6K10编辑于 2024-02-06
  • 来自专栏数据派THU

    ​港中文提出CLongEval中文基准测试集,准确评估模型长上下文能力

    然而,在中文领域,对于 long context LLM 能力评估的研究还有些滞后。目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。 基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。 论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测试集。以确保对模型能力的综合评估,作者首先对 LLM 处理长文本所需的关键能力进行了拆解。 长篇故事问答: 该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。 作者首先将 BOOKSUM 数据集翻译成了中文,之后使用 GPT-4 辅助将 BOOKSUM 数据集中每个片段的摘要整合成总摘要。该任务包含 1K 个测试样例。

    1.3K10编辑于 2024-04-16
  • 来自专栏秋枫学习笔记

    UHGEval:无约束生成下的中文模型幻觉评估

    然而从不同粒度上考验模型的分辨能力不仅更有挑战,也能为解决幻觉问题提供启发。 此外,语言模型幻觉的基准往往关注英语世界的,缺少中文幻觉评测数据集。 具体来说,生成内容时,模型提示词减少指令以至于不适用指令,而直接将待续写的开头部分输给模型,以得到最后的候选续写。如此一来,这两方面共同构成了模型和提示无约束的候选幻觉生成。 幻觉排名阶段。 使用了3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM ,同时保留轻微的随机性,并确保不同模型的参数一致”的原则。 相关工作 作者还从模型,幻觉,以及评测基准三个角度对相关工作进行了详细的评述。在模型方面,作者从权重的开放性和模型的训练深度两个维度回顾了目前流行的模型

    1K10编辑于 2023-11-30
  • 来自专栏数据分析与挖掘

    怎么让英文预言模型支持中文?(二)继续预训练

    代码已上传到github: https://github.com/taishan1994/chinese_llm_pretrained Part1前言 前面我们已经讲过怎么构建中文领域的tokenization 我们新增加了一些中文词汇到词表中,这些词汇是没有得到训练的,因此在进行指令微调之前我们要进行预训练。预训练的方式一般都是相同的,简单来说,就是根据上一个字预测下一个字是什么。 Part3构建模型 在test_model.py里面我们可以初步使用预训练的模型看看效果: from transformers import BertTokenizer,GPT2LMHeadModel, 1979 年 毕 业 于 武 汉 工 学 院 中 文 系, 1988 年 毕 业 于 中 国 人 民  学 中 文 系, 历 任 中 国 人 民  学 高 级 教 师 、 教 育 部  学 文 学 Part5总结 到这里,你已经了解了怎么构建中文词表并继续预训练了,接下来可能你还想了解指令微调,那我们下期再见。

    1.2K20编辑于 2023-07-10
  • 来自专栏数据分析与挖掘

    怎么让英文语言模型支持中文?(三)进行指令微调

    前面已经讲过: 怎么让英文语言模型支持中文?(一)构建中文tokenization 怎么让英文语言模型支持中文?(二)继续预训练 这里是最后一部分了:怎么让英文语言模型支持中文? (三)对预训练模型进行指令微调。 我们在选择好一个语言模型之后。比如chatglm、llama、bloom等,要想使用它,得了解三个方面:输入数据的格式、tokenization、模型的使用方式。接下来我们一一来看。 Part4模型 模型加载方式的话,一般使用的是AutoTenizer和AutoModelForCausalLM,但有的模型可能这么加载会报错。 在SFT之后其实应该还有对齐这部分,就是对模型的输出进行规范,比如使用奖励模型+基于人类反馈的强化学习等,这里就不作展开了。

    1.4K30编辑于 2023-07-10
  • 来自专栏技术人生黄勇

    中文模型 Chinese-LLaMA-Alpaca-2 开源且可以商用

    01 — 目前在开源模型中,比较有名的是Meta的LLAMA模型系列和清华的ChatGLM模型。 特别是在中文领域上,ChatGLM模型经过中文问答和对话的优化,更加符合中文使用者的偏好回答。 Space 空间 ChatGLM2-6B 初体验 自从Meta于7月19日凌晨开源了Llama2,并且可免费商用后,国内也开始了基于Llama2的中文模型训练,并推出了相应的中文模型模型选择指引 下面是中文LLaMA-2和Alpaca-2模型的基本对比以及建议使用场景。 从上表看,如果以模型为核心做应用,最好选择Alpaca-2。 感兴趣的朋友,可以去官网下载模型,本地或者云平台运行一下,体验对话效果,和指令执行的效果。‍‍‍ 如果自己有开发基于模型的应用,可以在此基础上,增加对这个中文模型的调用支持。‍‍ Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本 AI人工智能模型失守!

    60310编辑于 2024-07-19
领券