首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型&AIGC

    6模型微调技术

    值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 input和target,则使用原始的input embedding(5) 使用方式离散和连续template token混合时,显示地插入一下anchor(离散的token)有助于template的优化(6) ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 当参数量达10B,效果相当于FT6.LoRA(2021)(1) 论文信息来自论文:《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》(2)摘要自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练 Model),学习目标为而加入LoRA后,学习目标为:(6) 配置在多个部位$(Q/K/V/Output)$同时添加$\bigtriangleup W$ ,会比只在单一部分上添加权重$\bigtriangleup

    2K00编辑于 2025-05-08
  • 来自专栏6G

    6G,AI , 与模型?

    6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI模型,同时使网络能够支持 AI 模型的训练和服务。 另外,从小模型模型,生产效率跨越式提升基础通用模型具有泛化性,网络智能化将从用例驱动转变为能力驱动,迅速降低应用开发门槛,加速 AI 工程化、规模化落地。 6G 网络将承担数据采集、预处理等数据服务,为云AI训练提供更好的支持。此外,6G 网络的分布式部署将使得 AI 模型更靠近用户侧,从而在时延方面具有潜在优势。 在数据获取和处理方面,与 ChatGPT 不同,网络中存在大量结构化数据,且网络不同问题间的共性不清晰,网络 AI 模型面临较大挑战。6G 网络面临如何有效采集适合AI模型训练的数据的挑战。 而在构建 AI 模型的路径上,需要分阶段探索,从离线小规模模型开始,逐步过渡到实时大规模模型,最终实现统一的网络 AI 模型。 本文摘自于中国移动的“6G内生AI架构及AI模”汇报材料。

    36710编辑于 2024-04-24
  • 模型的2025:6个关键洞察

    以下为卡帕西年度回顾全文:《2025年语言模型年度回顾》2025年是语言模型领域大步跨越且充满变数的一年。 通过在数学、代码谜题等大量可自动验证奖励的环境中训练语言模型模型会自发形成人类视角下近似“推理”的策略。 Cursor与语言模型应用的新层级Cursor最引人关注的点(除了其2025年的爆发式增长),在于它清晰揭示了语言模型应用的一个全新层级,人们开始普遍讨论“某领域的Cursor模式”。 2025 年,行业内围绕这一新应用层的“厚度”展开了大量讨论:语言模型实验室是否会通吃所有应用场景?还是说垂直领域的语言模型应用仍有广阔蓝海? 我个人的观点是,语言模型实验室更倾向于培育“通识能力极强的大学生”式模型,而语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,对这些“大学生”进行针对性组织、微调,最终驱动它们成为特定垂直领域的

    39910编辑于 2025-12-24
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(6)

    中小型公司模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的模型体系已经非常丰富 对话模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。

    28310编辑于 2024-09-10
  • 来自专栏猫头虎博客专区

    ChatGLM-6B 模型的前世今生

    ChatGLM-6B 开源模型旨在与开源社区一起推动模型技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务 尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性,但由于 ChatGLM-6B 模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确性,且模型易被误导(详见局限性)。 : 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。 将模型下载到本地之后,将以上代码中的 THUDM/chatglm-6b 替换为你本地的 chatglm-6b 文件夹的路径,即可从本地加载模型。 Optional 模型的实现仍然处在变动中。 局限性 由于 ChatGLM-6B 的小规模,其能力仍然有许多局限性。以下是我们目前发现的一些问题: 模型容量较小:6B 的小容量,决定了其相对较弱的模型记忆和语言能力。

    1.3K10编辑于 2024-04-08
  • 来自专栏MavenTalk

    ChatGLM-6B模型微调实战总结

    上篇我们已经具备了 ChatGLM-6B 初步的运行环境,这为实现完全属于自己的模型奠定了基础(快速部署ChatGLM-6B模型实战总结),接下来将针对模型进行微调,以便让它真正成为一个定制化智能助手 在这个过程中,我将直接使用官方的P-Tuning v2工具对ChatGLM-6B模型进行参数微调。 /THUDM/chatglm-6b \ # 加载模型文件地址 --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存训练模型文件地址 在实践中,我们使用了 ChatGLM-6B 模型,并经历了模型的训练和推理过程。训练模型消耗了相当多的时间,但也让我们体会到了模型训练的复杂性和挑战性。 —扩 展 阅 读— 正在发生或即将发生的AI模型应用,立帖为证 ChatGPT、Claude和Bard,三足鼎立之势已成 WPS Office AI实战总结,智能化办公时代已来 你对 ChatGPT

    4.1K43编辑于 2023-09-06
  • 来自专栏MavenTalk

    快速部署ChatGLM-6B模型实战总结

    近期,IT界掀起了模型的热潮,各种百模争霸的局面出现。 然而,当开源的模型 ChatGLM 面世时,我却遇到了一些困扰,但幸运的是,腾讯云给了我一个难得的机会。 下载模型文件 https://github.com/THUDM/ChatGLM-6B 官方网站 从ChatGLM的官方库中下载,将模型文件我放到工程的 ChatGLM-6B/THUDM 目录下面。 huggingface.co/THUDM/chatglm-6b 模型文件比较大(25G),这里下载需要的时间很长,请耐心等待,以下是目录下载后模型目录下的文件: 测试 终端运行 Demo 进入ChatGLM server.port 27777 --server.address 0.0.0.0 执行成功的效果如下: 打开浏览器可见到如下界面: 跟它对话一下,看看效果: —扩 展 阅 读— 正在发生或即将发生的AI模型应用

    1.9K20编辑于 2023-09-06
  • 来自专栏卓越笔记

    软件质量模型6 特性 27 个子特性

    软件质量模型6 特性 27 个子特性     一、功能性:     1、适合性:软件是否提供了相应的功能     2、准确性:软件提供的功能是否正确(用户需要的)     3、互操作性:产品与产品之间交互数据的能力

    1.1K30编辑于 2023-02-18
  • 来自专栏机器学习

    瑞莎星睿 O6 (Radxa Orion O6) 运行模型

    那么如何使用CIXP1NPUSDK运行基于NPU加速推理的人工智能模型和应用,如果你已经拥有了一个硬件设备,NPUSDK包含NOECompiler与CIXAIModelHub,要获取SDK需要通过申请CIX )在编译的同时,我们可以去魔搭社区去下载GGUF格式的模型,为后面的体验做准备新开一个终端,然后运行下面的命令进行模型的拉取这里我们以[通义千问3-8B-GGUF·模型库](https://www.modelscope.cn /models/Qwen/Qwen3-8B-GGUF展开代码语言:TXTAI代码解释等待模型完成下载。于此同时我们之前的build工作也完成了! --qSOXX00tZ-LHgtH3UXjWNkk4FiKxGCGeYl7WzppRj1wIB4KwLb0)##推理测试当我们的模型下载完成后如下! /models/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q5_K_M.gguf展开代码语言:TXTAI代码解释>-m后面接的是你模型保存的位置!

    50410编辑于 2025-11-14
  • 来自专栏帅云霓的技术小屋

    模型与AI底层技术揭秘 (6) 分割与征服

    所谓的分治,就是将一个而复杂的问题,拆分为小而容易解决的问题。

    40320编辑于 2023-10-25
  • 来自专栏科学最Top

    2024年NIPS中6篇时序模型研究汇总

    该预测器与任何仅解码器的大型语言模型都兼容,展现出回溯长度的灵活性,而且随着大型语言模型规模的增大,其可扩展性也得以体现。 (NIPS24) 大型语言模型(LLMs)正被应用于时间序列预测。但语言模型对时间序列真的有用吗? 在对三种近期流行的基于大型语言模型的时间序列预测方法进行的一系列消融研究中,我们发现移除大型语言模型组件或者用一个基本的注意力层代替它,并不会降低预测性能 —— 在大多数情况下,结果甚至有所提高! 我们还发现,尽管预训练的大型语言模型计算成本很高,但它们并不比从头开始训练的模型表现更好,它们无法体现时间序列中的顺序依赖关系,在少样本情境下也没有帮助。 6、论文标题:Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate

    1.1K10编辑于 2024-10-31
  • 来自专栏NLP/KG

    模型应用:模型AI Agent在企业应用中的6种基础类型,企业智慧升级必备

    模型应用:模型AI Agent在企业应用中的6种基础类型,企业智慧升级必备 AI Agent 智能体在企业应用中落地的价值、场景、成熟度做了分析,并且探讨了未来企业 IT 基础设施与架构如何为未来 通俗地说,就是在企业应用中,通过 “外挂” 私有知识库来扩充模型的知识储备,以提供基于自然语言的、对话式的企业私有知识访问(对应到 AI Agent 的基本能力之一:持久化记忆),以解决通用模型在面向企业应用时领域知识不足导致的幻觉问题 知识助手通常借助于模型的 **RAG(检索增强生成)**方案来实现,其本质上也是一种提示工程:**借助于在模型输入时携带相关的私有知识上下文,让模型理解、总结、整理并回答用户问题。 在模型出现以后,给这一类 RPA 智能也带来了新的优化空间。 6.自定义流程助手 最后一种 AI Agent 严格来说是上面的几种基础 Agent 能力的组合。

    2.9K33编辑于 2024-05-07
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    71401编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 分享6类10种政务AI模型应用场景

    模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。模型的设计目的是提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。 模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。 6类政务AI模型的应用场景:政务咨询领域:通过构建具备深厚专业知识的智能助手,针对财务、环保等专业领域,提供精确的咨询和解答服务。这有助于提升企业和公众的办事体验,同时增强政府机构的工作效率。 城市治理领域:模型专注于快速响应民意诉求、智能分类问题、高效处理事件工单等城市治理需求,开发特色应用,提高城市事件处理的效率,提升城市治理的智能化水平。 机关运行优化:利用模型技术,通过人机协作,减少公务人员在日常工作中的重复性劳动,使他们能更专注于核心职责,从而提升工作效率。

    2.5K10编辑于 2024-08-06
  • 来自专栏大模型应用

    模型应用:情感分析模型微调深度分析:从基础预测到性能优化.6

    在实际应用中,我们经常会遇到这样的问题:模型在测试集上准确率很高,但在真实场景中表现不佳;或者模型对某些类型的文本始终无法正确分类。这些问题都需要通过深入的模型分析来解决。 今天我们将从实践角度出发,由浅入深地探讨情感分析模型微调后的深度分析方法,从而能够掌握模型评估与优化的完整流程。二、情感分析模型微调1. 模型初始化:加载预训练的中文BERT模型和分词器2. 数据处理:将中文文本转换为模型可接受的输入格式3. 模型微调:在情感分析任务上对预训练模型进行微调2.3 核心组件2.3.1 Tokenizer(分词器)将中文文本转换为模型可理解的数字序列处理特殊字符、标点符号添加模型所需的特殊token2.3.2 BERT 监控验证集性能:确保在验证集上评估模型,并根据验证集性能调整超参数。尝试不同的模型:如果当前模型表现不佳,可以尝试使用不同的预训练模型,例如在中文情感分析任务上表现较好的模型

    25611编辑于 2026-02-03
  • 来自专栏YO大数据

    【AI模型】从零开始运用LORA微调ChatGLM3-6B模型并私有数据训练

    lfs下载 4.4 模型下载和代码拉取 4.5 依赖下载 5 模型微调 5.1 数据准备 5.2 LORA微调 5.3 微调前后对比 6 总结 1.什么是ChatGLM3-6B ChatGLM3 是智谱 ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性: 更强大的基础模型: ChatGLM3 -6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。 更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3 总结 到这里已经完成了LORA微调ChatGLM3-6B,整体下来如何自己造的数据不够多和精准,效果并不是那么好 后续将更新更多微调方式 需要模型语言包的朋友们可以看主页

    3.6K02编辑于 2024-05-25
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.5K10编辑于 2024-10-09
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.7K11编辑于 2024-01-04
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 训练三步骤 初步认识了模型长什么样了,接下来一起来看看如何训练出一个模型6)计算相关上下游相关产业:很多公司正在积极探索基于GPU、FPGA和ASIC等硬件加速制造技术,以支持模型的训练和推理速度。 除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用,每天还有很多大模型的应用正在不断涌现,模型在未来仍然有很大的发展潜力,国内的优秀模型代表例如百度文心模型也正在搭建全系统产业化的模型全景

    21.1K29编辑于 2023-11-22
领券