首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    基准测试能验证模型效果,促进模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升模型的安全合规性。 (3)数据构建:人工构建、题目自动化填充、智能算法生成三种方式定期补充或更新评测数据 (4)测试执行:将测试数据输入被测模型并观测模型输出结果 (5)结果评估:采用自动化或者人工的方式进行结果评估。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型的评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE 》(发送“模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏数据派THU

    中文对话模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话模型开源社区迎来了一名浓眉大眼的新成员! 最新项目BELLE(BE Large Language model Engine)基于BLOOM和LLAMA针对中文做了优化,模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 ,有助于模型在各种中文场景中的表现。 模型模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。

    98220编辑于 2023-04-05
  • 来自专栏siri的开发之路

    开源中文类LLaMA语言模型汇总

    近日笔者在调研开源中文模型时发现LLaMA可以说是今年最受欢迎的语言模型之一,LLaMA的开源带动了语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。 然而,由于LLaMA是英文原生模型,对中文的支持较弱,因此训练中文模型需要额外的训练和对齐。本文介绍了笔者在调研过程中整理的一些具有代表性的基于LLaMA中文开源模型,供读者对比这些方案的异同。 然而,汉语作为一种世界互联网中的“小众”语言(仅占总体量约5%),模型构建时往往不会针对汉语进行设计,例如ChatGPT的汉语能力远弱于英文能力,而LLaMA词表中仅包含少量汉字,并且几乎没有在中文上进行训练 图片Ziya-LLaMA(2023.05.17)huggingfaceIDEA研究院发布的姜子牙通用模型(Ziya-LLaMA-13B-v1),基于LLaMA-13B扩充中文词表,进行千亿token量级的预训练 ,使模型具备中文能力。

    2.6K52编辑于 2023-09-24
  • 来自专栏机器学习AI算法工程

    【开源】度小满中文金融对话模型

    金融一直是轩辕模型重点关注的领域和主要应用目标,因此我们首先在金融场景评测了XuanYuan-6B模型。 除金融外,我们也注重轩辕模型的通用能力,因此我们也在多个主流评测集上进行了模型评测,观察轩辕模型在知识、逻辑、代码等通用能力上的表现。评测结果如下表所示。 在中文相关场景下,XuanYuan-6B甚至可超越更大尺寸的LLaMA2-70B模型。 值得注意的是,在上述所有评测中,XuanYuan-6B均进行了考试场景增强,具体细节可见我们的技术报告。 评估对比对象为业界开源的类似尺寸的主流模型,我们并采用GSB(Good,Same,Bad)指标来展示评估结果,具体结果如下图所示。 从评测结果来看,XuanYuan-13B具备很强的通用能力和金融能力,其性能甚至可比肩更大尺寸的模型,做到了以小搏

    73210编辑于 2024-04-18
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.1K10编辑于 2025-05-07
  • 来自专栏我爱计算机视觉

    中文提出LISA模型:解锁多模态模型“推理分割”能力

    本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 模型,解锁多模态模型“推理分割”能力。 尽管当前多模态模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答 因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态模型。 技术方案概述 首先将图像和文本送到多模态-语言模型 F(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。 In arXiv preprint, 2023. [5] Li, Bo, et al.

    1.5K70编辑于 2023-08-31
  • 来自专栏大模型应用

    模型应用:模型 MapReduce 全解析:核心概念、中文语料示例实现.12

    模型训练中,MapReduce被广泛应用于数据处理、特征提取和分布式训练。 模型 MapReduce 是将分布式计算经典的 MapReduce 范式与模型能力结合的技术架构,核心解决模型处理超长文本 / 海量任务时的算力瓶颈、上下文窗口限制、任务并行效率低 三问题。 , "深度学习技术在自然语言处理中取得了显著进展,特别是语言模型的出现。", "中文自然语言处理面临独特挑战,包括分词、词性标注和语义理解等问题。" 语言模型 : 2 13. 中文 : 2 14. 包括 : 2 15. 模型 MapReduce 则适配语义任务,针对超长文本等场景,依托本地 GPU/CPU 运行模型

    22732编辑于 2026-02-09
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 推荐采用‘四层注入法’: 1)API层:模拟真实用户请求分布(如80%短提示+15%中长提示+5%对抗性长上下文),避免均匀负载失真; 2)Engine层:直连vLLM/Triton推理引擎,注入不同 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    19110编辑于 2026-03-31
  • 来自专栏自然语言处理(NLP)论文速递

    中文为中心!复旦 & 北大 | 从头训练中文模型:CT-LLM

    引言 当前,绝大多数模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。 然而,今天给大家分享的这篇文章旨在从头开始训练中文模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。 目前,关于非英语模型的探索仍然是一个未知的领域。 「泛化不确定性」 随着对于精通双语或多语功能的模型的需求日益增长,特别是能够适应中文语言应用的模型。 为满足这种需求,人们已经采取了多种策略来增强LLMs的多语言能力,特别强调在预训练阶段加入更高比例的中文Token,或者采用监督式微调(SFT)等技术来激活模型中文语言功能。 总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。

    1.2K10编辑于 2024-04-12
  • 来自专栏AI工程

    用mT5模型微调中文分类任务示例

    用mT5模型微调中文分类任务示例 mT5模型是T5模型在多语言数据集C4上的继续训练,T5本身是比较早了,是2019年的一个模型,但是后来又有很多次不同的升级。 mT5模型论文发布自2020年10月。 所以我们需要: 想办法在原版模型的embedding中,加入我们的prompt embedding 训练模型保证只训练我们加入的这部分embedding,不训练其他的模型参数 分类任务的实现 我们说了我们要做中文的分类任务 ,mT5这样的encoder-decoder结构其实天然的做的是sequence-to-sequence结构,类似机器翻译/对话聊天之类的 那么分类任务怎么设计的 我们先定位任务为,输入一句(段)中文文本 我们具体计算loss也只计算最后decoder输出的这三个token的概率比较,比如3的概率最大,那么就是分类0,4的就是分类1,5就是分类2。

    3.3K20编辑于 2022-03-30
  • 模型微调】一文掌握5模型微调的方法

    (Prompt Tuning)在内的5种主流方法。 模型微调究竟是什么?直观上,模型微调即是指通过输入特定领域或任务的数据,并有选择性地调整模型参数的技术过程。 例如,我们可以将一个通用的中文基座模型,通过在高质量的法律条文和案例数据集上进行微调,使其化身为一个能够精准回答法律问题、分析案件的法律助手。这个过程,就是模型微调价值的直接体现。 我们所讨论的5种微调方法,本质上都是对这个基础架构中自注意力机制与前馈神经网络等核心组件的参数进行优化的不同策略。 5、提示调整-轻量级的参数优化提示调整(Prompt Tuning)是一种“润物细无声”的微调,不改变模型自身,而是通过优化输入提示词的嵌入表示来引导模型输出。

    3.5K40编辑于 2025-10-23
  • 来自专栏张俊红

    5 常用机器学习模型类型总结

    本文介绍了 5 常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点: 1、应用性。 所以我们希望通过给出模型的一般类别,让你更好地了解这些模型应当如何应用。 2、相关性。 因此,与其创建模型来预测响应变量的值,不如创建解释性模型来帮助我们理解模型中变量之间的关系。 如果你不能解释一个模型是如何工作的,那么这个模型就很难取信于人,自然也就不会被人们应用。 参考链接: https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

    3.5K20编辑于 2022-03-29
  • 来自专栏NLP/KG

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练,进一步提升了中文基础语义理解能力 图片 以ChatGPT、GPT-4等为代表的语言模型(Large Language Model 然而,由于语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。 为了促进模型中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca模型。 2023/04/07(https://github.com/ymcui/Chinese-LLaMA-Alpaca/releases/tag/v2.0):发布13B版本中文LLaMA、Alpaca模型, 请参考:Release Note 2023/03/28 正式开源中文LLaMA、Alpaca模型,目前提供7B版本下载体验 2. ,合理辩证地看待模型相关各种评测结果有助于模型技术的良性发展。

    2.8K00编辑于 2023-07-29
  • 来自专栏深度学习自然语言处理

    国际中文教育模型“桃李” 1.0发布

    随着ChatGPT引起全社会的关注,及各类语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。 国际中文教育人士纷纷展开了对模型的探讨:模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师? 然而,目前通用领域的模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的模型“桃李”(Taoli)1.0,以期成为模型在国际中文教育领域应用的引玉之砖。 “桃李”(Taoli) · “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了模型在该领域多项任务上的理解能力。 总结与展望 通过对中文基座模型的指令微调,我们推出了国际中文教育模型“桃李”(Taoli)1.0。 “桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。

    1.1K30编辑于 2023-08-22
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文模型研发如火如荼,但中文评价基准却很少。 DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文模型。 C-Eval,来帮助中文社区研发模型。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型5 - 结论 在这篇文章中,我们介绍了 C-Eval 的开发目标,过程,和重点考量的因素。我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。

    1.4K31编辑于 2023-08-08
  • 来自专栏山行AI

    基于中文法律知识的语言模型——LaWGPT

    在ChatGPT引领的AI浪潮下,涌现了一批AI应用,其背后其实蕴含着一个基本事实:AI能力得到了极大突破—模型的能力有目共睹,未来只会变得更强。 我们相信未来会有越来越多的模型出现,AI正在逐渐平民化,将来每个人都可以利用模型轻松地做出自己的AI产品。 最近这些天,github的排行榜每天都在发生着变化。 昨天我们介绍了位于榜首的用于生成图片的StableStudio,今天我们介绍一款目前高居第二位的基于中文法律知识的模型—LaWGPT。 LaWGPT:基于中文法律知识的语言模型 LaWGPT 是一系列基于中文法律知识的开源语言模型。 该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了模型在法律领域的基础语义理解能力。

    4.1K20编辑于 2023-06-14
  • 来自专栏大模型应用

    模型应用:模型训练数据治理:噪声过滤与高质量中文语料构建实践.40

    尤其对于中文模型而言,中文语料存在来源繁杂、噪声冗余、格式不统一、语义歧义等问题,直接影响模型的理解能力、生成准确性与泛化能力。 三、核心流程 模型训练数据治理是一个闭环迭代的过程,核心流程分为 5 个阶段,每个阶段都需要结合中文语言特性设计针对性方案。1. 2025技术:中文模型语义一致性治理突破4. ,对于中文模型而言,更需要兼顾语言特性与文化内涵。 随着模型技术的发展,数据治理将成为一种的趋势,我们可以利用模型自身进行数据清洗与质检,实现以模型治理数据,以数据优化模型的闭环;同时可以针对不同行业、不同场景的需求,构建专属的高质量中文语料库。

    36832编辑于 2026-03-09
  • 来自专栏有三AI

    模型解读】历数GAN的5基本结构

    如全卷积的DCGAN模型[1],输入就是1*100的向量,然后经过一个全连接层学习,reshape到4*4*1024的张量,再经过4个上采样的反卷积网络,生成64*64的图。 5.1 级联结构[5] 早期以DCGAN为代表的网络生成的图片分辨率太低,质量不够好,都不超过100×100,在32×32或者64×64左右。 在图像分割中进行上采样时也采用学习小倍率的放大而不是倍率的方法,如利用两个2倍上采样替换一个4倍的上采样,不仅可以增强网络的表达能力,还降低了学习难度。 5.2 并行与循环结构[6] GAN有一应用就是风格化,实现两个域之间的风格互换,以CycleGAN[6]为典型代表。它包含了多个生成器和多个判别器。Cycle的典型结构如下: ? ? Triple Generative Adversarial Nets[J]. neural information processing systems, 2017: 4088-4098. [5] Denton

    1.4K10发布于 2019-07-26
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(5)

    国内外多模态模型对比 国内 LLaMA-Adapter V2 香港中文大学 双语输出 输入 •图像 •语音 •文本 •视频 • 3D 点云 起源:LLaMA-Adapter •在线性层上进行偏差调整 •4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化 mPLUG-Owl 阿里巴巴达摩研究院 2023年5月 架构 •视觉基础模块(采用开源的VTL-L) •视觉抽象模块 多模态模型评测数据集 国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题) •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案 多模态模型的评测标准 国内评测标准 KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态模型对比

    35810编辑于 2024-09-10
  • 来自专栏人工智能极简应用

    AI智能体研发之路-模型篇(三):中文模型开、闭源之争

    今天我们详细聊聊中文模型开闭源的那些事。 二、中文开/闭源模型概览 大家先看《2024年中文模型全景图》,对国内中文模型开闭源情况有个概念。 Tips:图片引自SuperCLUE中文模型基准测评2024年4月报告,国内领先的模型评测公司,高中室友创办的,没想到毕业多年,兜兜转转进入到了一个行业,如需合作需要可以联系我哈 闭源模型:主要有文心一言 4、透明度和可解释性:源代码公开,有助于更好地理解模型的工作原理,提高模型的可解释性和可信度。 5、适应多样化需求:开源模型可以根据不同的应用场景和需求进行定制和扩展,满足个性化的要求。 5、知识产权风险:在使用开源模型时,需要注意遵守相关的开源协议,避免知识产权纠纷。 5、持续更新和改进:商业公司会不断对闭源模型进行更新和改进,以提供更好的性能和功能。 4.2 缺点 1、成本较高:闭源模型通常需要用户购买许可证或订阅服务,成本相对较高。

    65210编辑于 2024-08-13
领券