搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大模型&AIGC
6种大模型微调技术
值得一提的是，通过使用T5模型进行模型大小的消融实验，我们展示了提示微调随着规模的增加变得更加具有竞争力：当模型参数超过数十亿时，我们的方法“缩小了差距”并达到了模型微调（即调整所有模型权重）的强大性能 input和target，则使用原始的input embedding(5) 使用方式离散和连续template token混合时，显示地插入一下anchor（离散的token）有助于template的优化(6) ，无需verbalizer(4) 特点在小、大模型上，效果均优于P-tuning。当参数量达10B，效果相当于FT6.LoRA（2021）(1) 论文信息来自论文：《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》（2）摘要自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练 Model)，学习目标为而加入LoRA后，学习目标为：(6) 配置在多个部位$(Q/K/V/Output)$同时添加$\bigtriangleup W$ ，会比只在单一部分上添加权重$\bigtriangleup
2K00编辑于 2025-05-08
来自专栏6G
6G，AI , 与大模型?
6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI大模型，同时使网络能够支持 AI 大模型的训练和服务。另外，从小模型到大模型，生产效率跨越式提升基础通用大模型具有泛化性，网络智能化将从用例驱动转变为能力驱动，迅速降低应用开发门槛，加速 AI 工程化、规模化落地。 6G 网络将承担数据采集、预处理等数据服务，为云AI训练提供更好的支持。此外，6G 网络的分布式部署将使得 AI 大模型更靠近用户侧，从而在时延方面具有潜在优势。在数据获取和处理方面，与 ChatGPT 不同，网络中存在大量结构化数据，且网络不同问题间的共性不清晰，网络 AI 大模型面临较大挑战。6G 网络面临如何有效采集适合AI大模型训练的数据的挑战。而在构建 AI 大模型的路径上，需要分阶段探索，从离线小规模模型开始，逐步过渡到实时大规模模型，最终实现统一的网络 AI 大模型。本文摘自于中国移动的“6G内生AI架构及AI大模”汇报材料。
36710编辑于 2024-04-24
大模型的2025：6个关键洞察
以下为卡帕西年度回顾全文：《2025年大语言模型年度回顾》2025年是大语言模型领域大步跨越且充满变数的一年。通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型，模型会自发形成人类视角下近似“推理”的策略。 Cursor与大语言模型应用的新层级Cursor最引人关注的点（除了其2025年的爆发式增长），在于它清晰揭示了大语言模型应用的一个全新层级，人们开始普遍讨论“某领域的Cursor模式”。 2025 年，行业内围绕这一新应用层的“厚度”展开了大量讨论：大语言模型实验室是否会通吃所有应用场景？还是说垂直领域的大语言模型应用仍有广阔蓝海？我个人的观点是，大语言模型实验室更倾向于培育“通识能力极强的大学生”式模型，而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环，对这些“大学生”进行针对性组织、微调，最终驱动它们成为特定垂直领域的
39910编辑于 2025-12-24
来自专栏啄木鸟软件测试
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择自己建立二次开发重新训练，消耗非常巨大现有的大模型体系已经非常丰富对话大模型已经白热化 •三天产生一个小应用 •两天产生一个新模型中小公司的技术实力相对薄微调用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer，ZeRO） •优化器状态分区(ZeRO-1） •梯度分区 (ZeRO-2） •参数分区(ZeRO-3) 压缩剪枝剪枝技术通过理结果产生重要影响，需要剔除冗余参数以提高模型训练效率步骤 •1、训练一个原始模型，该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小，并将其设置为零。 •4、评估模型的大小、速度和效果等指标，如果不符合要求，那么继续进行剪枝操作直至满意为止。
28310编辑于 2024-09-10
来自专栏猫头虎博客专区
ChatGLM-6B 大模型的前世今生
ChatGLM-6B 开源模型旨在与开源社区一起推动大模型技术发展，恳请开发者和大家遵守开源协议，勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确性，且模型易被误导（详见局限性）。：更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。将模型下载到本地之后，将以上代码中的 THUDM/chatglm-6b 替换为你本地的 chatglm-6b 文件夹的路径，即可从本地加载模型。 Optional 模型的实现仍然处在变动中。局限性由于 ChatGLM-6B 的小规模，其能力仍然有许多局限性。以下是我们目前发现的一些问题：模型容量较小：6B 的小容量，决定了其相对较弱的模型记忆和语言能力。
1.3K10编辑于 2024-04-08
来自专栏MavenTalk
ChatGLM-6B大模型微调实战总结
上篇我们已经具备了 ChatGLM-6B 初步的运行环境，这为实现完全属于自己的模型奠定了基础（快速部署ChatGLM-6B大模型实战总结），接下来将针对模型进行微调，以便让它真正成为一个定制化智能助手在这个过程中，我将直接使用官方的P-Tuning v2工具对ChatGLM-6B模型进行参数微调。 /THUDM/chatglm-6b \ # 加载模型文件地址 --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存训练模型文件地址在实践中，我们使用了 ChatGLM-6B 模型，并经历了模型的训练和推理过程。训练模型消耗了相当多的时间，但也让我们体会到了模型训练的复杂性和挑战性。 —扩展阅读— 正在发生或即将发生的AI大模型应用，立帖为证 ChatGPT、Claude和Bard，三足鼎立之势已成 WPS Office AI实战总结，智能化办公时代已来你对 ChatGPT
4.1K43编辑于 2023-09-06
来自专栏MavenTalk
快速部署ChatGLM-6B大模型实战总结
近期，IT界掀起了大模型的热潮，各种百模争霸的局面出现。然而，当开源的大模型 ChatGLM 面世时，我却遇到了一些困扰，但幸运的是，腾讯云给了我一个难得的机会。下载模型文件 https://github.com/THUDM/ChatGLM-6B 官方网站从ChatGLM的官方库中下载，将模型文件我放到工程的 ChatGLM-6B/THUDM 目录下面。 huggingface.co/THUDM/chatglm-6b 模型文件比较大(25G)，这里下载需要的时间很长，请耐心等待，以下是目录下载后模型目录下的文件：测试终端运行 Demo 进入ChatGLM server.port 27777 --server.address 0.0.0.0 执行成功的效果如下：打开浏览器可见到如下界面：跟它对话一下，看看效果： —扩展阅读— 正在发生或即将发生的AI大模型应用
1.9K20编辑于 2023-09-06
来自专栏卓越笔记
软件质量模型的 6 大特性 27 个子特性
软件质量模型的 6 大特性 27 个子特性一、功能性： 1、适合性：软件是否提供了相应的功能 2、准确性：软件提供的功能是否正确（用户需要的） 3、互操作性：产品与产品之间交互数据的能力
1.1K30编辑于 2023-02-18
来自专栏机器学习
瑞莎星睿 O6 (Radxa Orion O6) 运行大模型
那么如何使用CIXP1NPUSDK运行基于NPU加速推理的人工智能模型和应用，如果你已经拥有了一个硬件设备，NPUSDK包含NOECompiler与CIXAIModelHub,要获取SDK需要通过申请CIX )在编译的同时，我们可以去魔搭社区去下载GGUF格式的模型，为后面的体验做准备新开一个终端，然后运行下面的命令进行模型的拉取这里我们以[通义千问3-8B-GGUF·模型库](https://www.modelscope.cn /models/Qwen/Qwen3-8B-GGUF展开代码语言：TXTAI代码解释等待模型完成下载。于此同时我们之前的build工作也完成了! --qSOXX00tZ-LHgtH3UXjWNkk4FiKxGCGeYl7WzppRj1wIB4KwLb0)##推理测试当我们的模型下载完成后如下! /models/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q5_K_M.gguf展开代码语言：TXTAI代码解释>-m后面接的是你模型保存的位置!
50410编辑于 2025-11-14
来自专栏帅云霓的技术小屋
大模型与AI底层技术揭秘 (6) 分割与征服
所谓的分治，就是将一个大而复杂的问题，拆分为小而容易解决的问题。
40320编辑于 2023-10-25
来自专栏科学最Top
2024年NIPS中6篇时序大模型研究汇总
该预测器与任何仅解码器的大型语言模型都兼容，展现出回溯长度的灵活性，而且随着大型语言模型规模的增大，其可扩展性也得以体现。 (NIPS24) 大型语言模型（LLMs）正被应用于时间序列预测。但语言模型对时间序列真的有用吗？在对三种近期流行的基于大型语言模型的时间序列预测方法进行的一系列消融研究中，我们发现移除大型语言模型组件或者用一个基本的注意力层代替它，并不会降低预测性能 —— 在大多数情况下，结果甚至有所提高！我们还发现，尽管预训练的大型语言模型计算成本很高，但它们并不比从头开始训练的模型表现更好，它们无法体现时间序列中的顺序依赖关系，在少样本情境下也没有帮助。 6、论文标题：Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate
1.1K10编辑于 2024-10-31
来自专栏NLP/KG
大模型应用：大模型AI Agent在企业应用中的6种基础类型，企业智慧升级必备
大模型应用：大模型AI Agent在企业应用中的6种基础类型，企业智慧升级必备 AI Agent 智能体在企业应用中落地的价值、场景、成熟度做了分析，并且探讨了未来企业 IT 基础设施与架构如何为未来通俗地说，就是在企业应用中，通过 “外挂” 私有知识库来扩充大模型的知识储备，以提供基于自然语言的、对话式的企业私有知识访问（对应到 AI Agent 的基本能力之一：持久化记忆），以解决通用大模型在面向企业应用时领域知识不足导致的幻觉问题知识助手通常借助于大模型的 **RAG（检索增强生成）**方案来实现，其本质上也是一种提示工程：**借助于在大模型输入时携带相关的私有知识上下文，让大模型理解、总结、整理并回答用户问题。在大模型出现以后，给这一类 RPA 智能也带来了新的优化空间。 6.自定义流程助手最后一种 AI Agent 严格来说是上面的几种基础 Agent 能力的组合。
2.9K33编辑于 2024-05-07
来自专栏创作是最好的自我投资
通用大模型VS垂直大模型
在人工智能这个充满无限可能的领域内，通用大模型和垂直大模型各有千秋。就我个人而言，在二者之间的选择上，并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求，来挑选最为契合的大模型。通用大模型通用大模型，乃是旨在应对多种任务与数据类型的庞然大物级人工智能模型。在知识覆盖的广度方面，通用大模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时，选择通用大模型无疑是一种明智之举。垂直大模型接下来谈谈垂直大模型。然而，由于垂直大模型的训练内容聚焦于当前行业，其涉猎的范围更集中，数据针对性更强，所以在提供专业咨询时往往更加精准、细致，这也正是垂直大模型的独特价值所在。因此，对于通用大模型或者垂直大模型，更倾向于哪一方不取决于个人想法，而是取决于用户需要。
71401编辑于 2024-12-30
来自专栏小洁叫你mysql
【AI大模型】训练Al大模型
大模型超越AI 目前所指的大模型，是“大规模深度学习模型”的简称，指具有大量参数和复杂结构的机器学习模型，可以处理大规模的数据和复杂的问题，多应用于自然语言处理、计算机视觉、语音识别等领域。本文将探讨大模型的概念、训练技术和应用领域，以及与大模型相关的挑战和未来发展方向。大模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数，而大模型则可能拥有数亿或数十亿个参数。训练大模型的挑战训练大模型需要应对一系列挑战，包括：以下是与大模型相关的一些代码示例：计算资源需求： import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术：模型压缩和加速技术将继续发展，以减小大模型的计算和存储开销。更好的计算平台支持：为了支持训练和部署大模型，计算平台将继续改进，提供更强大的计算资源和工具。
1.5K30编辑于 2023-10-10
分享6类10种政务AI大模型应用场景
大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设计目的是提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的泛化能力，可以对未见过的数据做出准确的预测。 6类政务AI大模型的应用场景：政务咨询领域：通过构建具备深厚专业知识的智能助手，针对财务、环保等专业领域，提供精确的咨询和解答服务。这有助于提升企业和公众的办事体验，同时增强政府机构的工作效率。城市治理领域：大模型专注于快速响应民意诉求、智能分类问题、高效处理事件工单等城市治理需求，开发特色应用，提高城市事件处理的效率，提升城市治理的智能化水平。机关运行优化：利用大模型技术，通过人机协作，减少公务人员在日常工作中的重复性劳动，使他们能更专注于核心职责，从而提升工作效率。
2.5K10编辑于 2024-08-06
来自专栏大模型应用
大模型应用：情感分析模型微调深度分析：从基础预测到性能优化.6
在实际应用中，我们经常会遇到这样的问题：模型在测试集上准确率很高，但在真实场景中表现不佳；或者模型对某些类型的文本始终无法正确分类。这些问题都需要通过深入的模型分析来解决。今天我们将从实践角度出发，由浅入深地探讨情感分析模型微调后的深度分析方法，从而能够掌握模型评估与优化的完整流程。二、情感分析模型微调1. 模型初始化：加载预训练的中文BERT模型和分词器2. 数据处理：将中文文本转换为模型可接受的输入格式3. 模型微调：在情感分析任务上对预训练模型进行微调2.3 核心组件2.3.1 Tokenizer（分词器）将中文文本转换为模型可理解的数字序列处理特殊字符、标点符号添加模型所需的特殊token2.3.2 BERT 监控验证集性能：确保在验证集上评估模型，并根据验证集性能调整超参数。尝试不同的模型：如果当前模型表现不佳，可以尝试使用不同的预训练模型，例如在中文情感分析任务上表现较好的模型。
25611编辑于 2026-02-03
来自专栏YO大数据
【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练
lfs下载 4.4 模型下载和代码拉取 4.5 依赖下载 5 模型微调 5.1 数据准备 5.2 LORA微调 5.3 微调前后对比 6 总结 1.什么是ChatGLM3-6B ChatGLM3 是智谱 ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：更强大的基础模型： ChatGLM3 -6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。更全面的开源序列：除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3 总结到这里已经完成了LORA微调ChatGLM3-6B，整体下来如何自己造的数据不够多和精准，效果并不是那么好后续将更新更多微调方式需要大模型语言包的朋友们可以看主页
3.6K02编辑于 2024-05-25
来自专栏学习
开源大模型与闭源大模型
在人工智能（AI）和机器学习（ML）的快速发展过程中，大模型（Large Models）已经成为推动技术进步的重要力量。当前，业界存在两种主要的大模型开发模式：开源大模型和闭源大模型。一、开源大模型开源大模型是指开发者将模型的代码和训练数据公开，使得任何人都可以访问、修改和使用这些资源。二、闭源大模型闭源大模型是指模型的代码和数据不对外公开，通常由商业公司开发和维护。代表性的闭源大模型包括OpenAI的GPT-3和Google的BERT。三、开源大模型与闭源大模型的对比 1.透明性与可控性：开源大模型的透明性更高，任何人都可以查看和验证其代码和数据，确保模型的行为符合预期。这对于学术研究和技术验证非常重要。闭源大模型通过控制代码和数据的访问，能够更好地保护用户隐私和数据安全，降低被恶意利用的风险。五、总结开源大模型和闭源大模型各有优缺点，适合不同的应用场景和需求。
1.5K10编辑于 2024-10-09
来自专栏IT从业者张某某
大模型与大模型的幻觉问题
参考大模型中的涌现 OpenAI 科学家：幻觉是大模型与生俱来的特性，而非缺陷大模型「幻觉」，看这一篇就够了｜哈工大华为出品大模型什么是大模型大语言模型（LLM）是基于海量文本数据训练的深度学习模型大模型的模型发展如下图涌现参考：大模型中的涌现什么是涌现？先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单，但是群体能力非常强大的生物。如何解决大模型的「幻觉」问题？方向一：什么是大模型「幻觉」大模型出现幻觉，简而言之就是“胡说八道”。用文中的话来讲，是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于大模型幻觉在 Karpathy 看来：从某种意义上说，大语言模型的全部工作恰恰就是制造幻觉，大模型就是「造梦机」。只有大模型助手存在幻觉问题。方向二：造成大模型「幻觉」的原因那么致使大模型产生幻觉的原因都有哪些？
1.7K11编辑于 2024-01-04
来自专栏数据派THU
原创 | 大模型扫盲系列——初识大模型
为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析，帮助读者初步了解大模型。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。训练三步骤初步认识了大模型长什么样了，接下来一起来看看如何训练出一个大模型。 6）计算相关上下游相关产业：很多公司正在积极探索基于GPU、FPGA和ASIC等硬件加速制造技术，以支持大模型的训练和推理速度。除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用，每天还有很多大模型的应用正在不断涌现，大模型在未来仍然有很大的发展潜力，国内的优秀大模型代表例如百度文心大模型也正在搭建全系统产业化的大模型全景
21.1K29编辑于 2023-11-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

6种大模型微调技术

6G，AI , 与大模型?

大模型的2025：6个关键洞察

多模态大模型技术原理及实战(6)

ChatGLM-6B 大模型的前世今生

ChatGLM-6B大模型微调实战总结

快速部署ChatGLM-6B大模型实战总结

软件质量模型的 6 大特性 27 个子特性

瑞莎星睿 O6 (Radxa Orion O6) 运行大模型

大模型与AI底层技术揭秘 (6) 分割与征服

2024年NIPS中6篇时序大模型研究汇总

大模型应用：大模型AI Agent在企业应用中的6种基础类型，企业智慧升级必备

通用大模型VS垂直大模型

【AI大模型】训练Al大模型

分享6类10种政务AI大模型应用场景

大模型应用：情感分析模型微调深度分析：从基础预测到性能优化.6

【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练

开源大模型与闭源大模型

大模型与大模型的幻觉问题

原创 | 大模型扫盲系列——初识大模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐