首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    (6)结果展示:测试报告、榜单、雷达图、柱状图等方式展示被测模型表现。 3.测试数据集(用什么测) 测试数据集即评测数据集。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型的评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE 》(发送“模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏数据派THU

    中文对话模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话模型开源社区迎来了一名浓眉大眼的新成员! 最新项目BELLE(BE Large Language model Engine)基于BLOOM和LLAMA针对中文做了优化,模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 ,有助于模型在各种中文场景中的表现。 模型模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。

    98220编辑于 2023-04-05
  • 来自专栏大模型&AIGC

    6模型微调技术

    值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 input和target,则使用原始的input embedding(5) 使用方式离散和连续template token混合时,显示地插入一下anchor(离散的token)有助于template的优化(6) ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 当参数量达10B,效果相当于FT6.LoRA(2021)(1) 论文信息来自论文:《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》(2)摘要自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练 Model),学习目标为而加入LoRA后,学习目标为:(6) 配置在多个部位$(Q/K/V/Output)$同时添加$\bigtriangleup W$ ,会比只在单一部分上添加权重$\bigtriangleup

    2.6K00编辑于 2025-05-08
  • 来自专栏siri的开发之路

    开源中文类LLaMA语言模型汇总

    近日笔者在调研开源中文模型时发现LLaMA可以说是今年最受欢迎的语言模型之一,LLaMA的开源带动了语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。 然而,由于LLaMA是英文原生模型,对中文的支持较弱,因此训练中文模型需要额外的训练和对齐。本文介绍了笔者在调研过程中整理的一些具有代表性的基于LLaMA中文开源模型,供读者对比这些方案的异同。 然而,汉语作为一种世界互联网中的“小众”语言(仅占总体量约5%),模型构建时往往不会针对汉语进行设计,例如ChatGPT的汉语能力远弱于英文能力,而LLaMA词表中仅包含少量汉字,并且几乎没有在中文上进行训练 图片Ziya-LLaMA(2023.05.17)huggingfaceIDEA研究院发布的姜子牙通用模型(Ziya-LLaMA-13B-v1),基于LLaMA-13B扩充中文词表,进行千亿token量级的预训练 ,使模型具备中文能力。

    2.6K52编辑于 2023-09-24
  • 来自专栏机器学习AI算法工程

    【开源】度小满中文金融对话模型

    本次开源的XuanYuan-6B系列模型包含基座模型XuanYuan-6B,经指令微调和强化对齐的chat模型XuanYuan-6B-Chat,以及chat模型的量化版本XuanYuan-6B-Chat 金融一直是轩辕模型重点关注的领域和主要应用目标,因此我们首先在金融场景评测了XuanYuan-6B模型。 除金融外,我们也注重轩辕模型的通用能力,因此我们也在多个主流评测集上进行了模型评测,观察轩辕模型在知识、逻辑、代码等通用能力上的表现。评测结果如下表所示。 在中文相关场景下,XuanYuan-6B甚至可超越更大尺寸的LLaMA2-70B模型。 值得注意的是,在上述所有评测中,XuanYuan-6B均进行了考试场景增强,具体细节可见我们的技术报告。 下面以XuanYuan-6B-Chat模型为例,来展示XuanYuan-6B系列模型的使用方法。

    73210编辑于 2024-04-18
  • 来自专栏我爱计算机视觉

    中文提出LISA模型:解锁多模态模型“推理分割”能力

    本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 模型,解锁多模态模型“推理分割”能力。 尽管当前多模态模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答 因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态模型。 技术方案概述 首先将图像和文本送到多模态-语言模型 F(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。 如果存在标记,则将标记在多模态模型 F 最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征 f 一起传递给解码器(其中分割视觉特征 f 由输入编码器 对图像进行编码得到)。

    1.5K70编辑于 2023-08-31
  • 来自专栏6G

    6G,AI , 与模型?

    6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI模型,同时使网络能够支持 AI 模型的训练和服务。 另外,从小模型模型,生产效率跨越式提升基础通用模型具有泛化性,网络智能化将从用例驱动转变为能力驱动,迅速降低应用开发门槛,加速 AI 工程化、规模化落地。 6G 网络将承担数据采集、预处理等数据服务,为云AI训练提供更好的支持。此外,6G 网络的分布式部署将使得 AI 模型更靠近用户侧,从而在时延方面具有潜在优势。 在数据获取和处理方面,与 ChatGPT 不同,网络中存在大量结构化数据,且网络不同问题间的共性不清晰,网络 AI 模型面临较大挑战。6G 网络面临如何有效采集适合AI模型训练的数据的挑战。 而在构建 AI 模型的路径上,需要分阶段探索,从离线小规模模型开始,逐步过渡到实时大规模模型,最终实现统一的网络 AI 模型。 本文摘自于中国移动的“6G内生AI架构及AI模”汇报材料。

    40810编辑于 2024-04-24
  • 来自专栏大模型应用

    模型应用:模型 MapReduce 全解析:核心概念、中文语料示例实现.12

    模型训练中,MapReduce被广泛应用于数据处理、特征提取和分布式训练。 模型 MapReduce 是将分布式计算经典的 MapReduce 范式与模型能力结合的技术架构,核心解决模型处理超长文本 / 海量任务时的算力瓶颈、上下文窗口限制、任务并行效率低 三问题。 , "深度学习技术在自然语言处理中取得了显著进展,特别是语言模型的出现。", "中文自然语言处理面临独特挑战,包括分词、词性标注和语义理解等问题。" 语言模型 : 2 13. 中文 : 2 14. 包括 : 2 15. 模型 MapReduce 则适配语义任务,针对超长文本等场景,依托本地 GPU/CPU 运行模型

    22732编辑于 2026-02-09
  • 模型的2025:6个关键洞察

    以下为卡帕西年度回顾全文:《2025年语言模型年度回顾》2025年是语言模型领域大步跨越且充满变数的一年。 通过在数学、代码谜题等大量可自动验证奖励的环境中训练语言模型模型会自发形成人类视角下近似“推理”的策略。 Cursor与语言模型应用的新层级Cursor最引人关注的点(除了其2025年的爆发式增长),在于它清晰揭示了语言模型应用的一个全新层级,人们开始普遍讨论“某领域的Cursor模式”。 2025 年,行业内围绕这一新应用层的“厚度”展开了大量讨论:语言模型实验室是否会通吃所有应用场景?还是说垂直领域的语言模型应用仍有广阔蓝海? 我个人的观点是,语言模型实验室更倾向于培育“通识能力极强的大学生”式模型,而语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,对这些“大学生”进行针对性组织、微调,最终驱动它们成为特定垂直领域的

    58110编辑于 2025-12-24
  • 来自专栏自然语言处理(NLP)论文速递

    中文为中心!复旦 & 北大 | 从头训练中文模型:CT-LLM

    然而,今天给大家分享的这篇文章旨在从头开始训练中文模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。 目前,关于非英语模型的探索仍然是一个未知的领域。 「泛化不确定性」 随着对于精通双语或多语功能的模型的需求日益增长,特别是能够适应中文语言应用的模型。 为满足这种需求,人们已经采取了多种策略来增强LLMs的多语言能力,特别强调在预训练阶段加入更高比例的中文Token,或者采用监督式微调(SFT)等技术来激活模型中文语言功能。 总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。 为了构建更高质量的偏好数据集,研究者们采用了alpaca-gpt4生成的"chosen"响应和baichuan-6B生成的"reject"响应。数据集总共包含183k个中文对和46k个英文对。

    1.2K10编辑于 2024-04-12
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(6)

    中小型公司模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的模型体系已经非常丰富 对话模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。

    29810编辑于 2024-09-10
  • 来自专栏猫头虎博客专区

    ChatGLM-6B 模型的前世今生

    结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。 ChatGLM-6B 开源模型旨在与开源社区一起推动模型技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务 [2023/05/15] 更新 v1.1 版本 checkpoint,训练数据增加英文指令微调数据以平衡中英文数据比例,解决英文回答中夹杂中文词语的现象。 (内容可能具有冒犯性,此处不展示) 英文能力不足:ChatGLM-6B 训练时使用的指示/回答大部分都是中文的,仅有极小一部分英文内容。 因此,如果输入英文指示,回复的质量远不如中文,甚至与中文指示下的内容矛盾,并且出现中英夹杂的情况。

    1.4K10编辑于 2024-04-08
  • 来自专栏NLP/KG

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练

    中文LLaMA模型和指令精调的Alpaca模型中文数据进行二次预训练,进一步提升了中文基础语义理解能力 图片 以ChatGPT、GPT-4等为代表的语言模型(Large Language Model 然而,由于语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。 为了促进模型中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca模型。 2023/04/07(https://github.com/ymcui/Chinese-LLaMA-Alpaca/releases/tag/v2.0):发布13B版本中文LLaMA、Alpaca模型, 请参考:Release Note 2023/03/28 正式开源中文LLaMA、Alpaca模型,目前提供7B版本下载体验 2. ,合理辩证地看待模型相关各种评测结果有助于模型技术的良性发展。

    2.8K00编辑于 2023-07-29
  • 来自专栏MavenTalk

    ChatGLM-6B模型微调实战总结

    上篇我们已经具备了 ChatGLM-6B 初步的运行环境,这为实现完全属于自己的模型奠定了基础(快速部署ChatGLM-6B模型实战总结),接下来将针对模型进行微调,以便让它真正成为一个定制化智能助手 在这个过程中,我将直接使用官方的P-Tuning v2工具对ChatGLM-6B模型进行参数微调。 /THUDM/chatglm-6b \ # 加载模型文件地址 --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存训练模型文件地址 在实践中,我们使用了 ChatGLM-6B 模型,并经历了模型的训练和推理过程。训练模型消耗了相当多的时间,但也让我们体会到了模型训练的复杂性和挑战性。 —扩 展 阅 读— 正在发生或即将发生的AI模型应用,立帖为证 ChatGPT、Claude和Bard,三足鼎立之势已成 WPS Office AI实战总结,智能化办公时代已来 你对 ChatGPT

    4.2K43编辑于 2023-09-06
  • 来自专栏新智元

    部署国产ChatGPT仅需6G显存!ChatYuan模型开放下载:业内首个功能型对话开源中文模型

    前段时间,元语智能开发团队训练了一个类似ChatGPT的功能型对话模型ChatYuan,并在网页版中开放了试玩接口。 现在你也可以在自己的机器上部署一个ChatYuan了! 并且在全中文任务中支持零样本学习,用户可以通过提供prompt的方式来使用,支持文本生成、信息抽取和理解大类下近30多种中文任务。 ChatYuan基于PromptCLUE-large结合数亿条功能问答和多轮对话数据进一步训练得到,模型参数量7.7亿,显存6G左右,一张民用显卡即可加载使用,目前模型已开放下载。 PromptCLUE的学习过程 三统一:统一模型框架(text-to-text),统一任务形式(prompt),统一应用方式(zero-shot/few-shot)(T0) 大规模预训练:在t5 (见UIE) 重新构建模型中文字典:使用sentencepiece上在千亿token上学习并构建模型字典,更加符合中文语言习惯 后续工作 目前版本可以进行问答、对话和各种创意性写作或文本生成,相对于线上的版本

    1K20编辑于 2023-02-24
  • 来自专栏深度学习自然语言处理

    国际中文教育模型“桃李” 1.0发布

    随着ChatGPT引起全社会的关注,及各类语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。 国际中文教育人士纷纷展开了对模型的探讨:模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师? 然而,目前通用领域的模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的模型“桃李”(Taoli)1.0,以期成为模型在国际中文教育领域应用的引玉之砖。 “桃李”(Taoli) · “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了模型在该领域多项任务上的理解能力。 总结与展望 通过对中文基座模型的指令微调,我们推出了国际中文教育模型“桃李”(Taoli)1.0。 “桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。

    1.1K30编辑于 2023-08-22
  • 来自专栏数据派THU

    C-Eval: 构造中文模型的知识评估基准

    ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文模型研发如火如荼,但中文评价基准却很少。 DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文模型。 C-Eval,来帮助中文社区研发模型。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文模型。 我们的目标是帮助开发者更好地开发中文模型,促进学术界和产业界科学地使用 C-Eval 帮助模型迭代。我们不着急看结果,因为模型本身就是一件非常困难的事情。

    1.4K31编辑于 2023-08-08
  • 来自专栏山行AI

    基于中文法律知识的语言模型——LaWGPT

    在ChatGPT引领的AI浪潮下,涌现了一批AI应用,其背后其实蕴含着一个基本事实:AI能力得到了极大突破—模型的能力有目共睹,未来只会变得更强。 我们相信未来会有越来越多的模型出现,AI正在逐渐平民化,将来每个人都可以利用模型轻松地做出自己的AI产品。 最近这些天,github的排行榜每天都在发生着变化。 昨天我们介绍了位于榜首的用于生成图片的StableStudio,今天我们介绍一款目前高居第二位的基于中文法律知识的模型—LaWGPT。 LaWGPT:基于中文法律知识的语言模型 LaWGPT 是一系列基于中文法律知识的开源语言模型。 该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了模型在法律领域的基础语义理解能力。

    4.1K20编辑于 2023-06-14
  • 来自专栏大模型应用

    模型应用:模型训练数据治理:噪声过滤与高质量中文语料构建实践.40

    尤其对于中文模型而言,中文语料存在来源繁杂、噪声冗余、格式不统一、语义歧义等问题,直接影响模型的理解能力、生成准确性与泛化能力。 6. 2025技术:中文模型语义一致性治理突破4. ,对于中文模型而言,更需要兼顾语言特性与文化内涵。 随着模型技术的发展,数据治理将成为一种的趋势,我们可以利用模型自身进行数据清洗与质检,实现以模型治理数据,以数据优化模型的闭环;同时可以针对不同行业、不同场景的需求,构建专属的高质量中文语料库。

    36832编辑于 2026-03-09
  • 来自专栏MavenTalk

    快速部署ChatGLM-6B模型实战总结

    近期,IT界掀起了模型的热潮,各种百模争霸的局面出现。 然而,当开源的模型 ChatGLM 面世时,我却遇到了一些困扰,但幸运的是,腾讯云给了我一个难得的机会。 下载模型文件 https://github.com/THUDM/ChatGLM-6B 官方网站 从ChatGLM的官方库中下载,将模型文件我放到工程的 ChatGLM-6B/THUDM 目录下面。 huggingface.co/THUDM/chatglm-6b 模型文件比较大(25G),这里下载需要的时间很长,请耐心等待,以下是目录下载后模型目录下的文件: 测试 终端运行 Demo 进入ChatGLM server.port 27777 --server.address 0.0.0.0 执行成功的效果如下: 打开浏览器可见到如下界面: 跟它对话一下,看看效果: —扩 展 阅 读— 正在发生或即将发生的AI模型应用

    1.9K20编辑于 2023-09-06
领券