搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏人工智能领域
AI大模型学习
AI大模型学习在当前技术环境下，AI大模型学习不仅要求研究者具备深厚的数学基础和编程能力，还需要对特定领域的业务场景有深入的了解。方向一：AI大模型学习的理论基础 AI 大模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。以下是一些关于 AI 大模型学习理论基础的重要内容：深度学习：深度学习是 AI 大模型学习的核心理论基础，它通过构建多层神经网络来实现对复杂数据模式的学习和表征。 ———————————————— 方向二：AI大模型的训练与优化 AI 大模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。以下是一些关于 AI 大模型学习理论基础的重要内容：深度学习：深度学习是 AI 大模型学习的核心理论基础，它通过构建多层神经网络来实现对复杂数据模式的学习和表征。
64210编辑于 2024-12-18
来自专栏司钰秘籍
AI大模型学习
在当前技术环境下，AI大模型学习不仅要求研究者具备深厚的数学基础和编程能力，还需要对特定领域的业务场景有深入的了解。通过不断优化模型结构和算法，AI大模型学习能够不断提升模型的准确性和效率，为人类生活和工作带来更多便利。 AI大模型学习的理论基础数学基础：线性代数：AI 大模型中大量使用向量和矩阵运算，如矩阵乘法、向量点积等，用于表示和操作数据。解释性较差，难以理解模型的决策过程。 AI大模型的训练与优化训练和优化大规模机器学习模型确实是一个具有挑战性的任务，以下是一些有效的方法和技巧： 1. 此外，模型的性能也受到计算资源、数据质量和算法优化等因素的影响 AI大模型学习的伦理与社会影响 AI 大模型学习确实带来了一些伦理和社会问题，我们需要认真对待： 1.
65810编辑于 2024-04-04
来自专栏大模型成长之路
【大模型学习 | LLaMA Serious】
一、LLaMA V1这篇文章主要是引出大模型的表现力并不是在模型的大小，而是训练数据的样本。之前的做法是尽可能的减少模型大小，但是这些方法忽略了推理代价。在 PaLM、LLaMA、DeepSeek 等大模型上被广泛使用，带来精度提升。其中， W,V 是可学习的权重矩阵b,c 是偏置项3️⃣ 位置编码采用了旋转位置编码：RoPE（Rotary Positional Embedding）RoPE 是一种通过“旋转”的方式，将相对位置信息引入注意力机制中的位置编码方法图片4️⃣ Causal multi-head attention LLaMA是 only-decoder结构的模型，属于自回归语言模型（类似GPT）。 0, 0, -inf, -inf], [0, 0, 0, 0, -inf], [0, 0, 0, 0, 0]]二、LLaMA V2大部分的预训练设置都与
46030编辑于 2025-07-25
来自专栏大模型成长之路
【大模型学习 | BLIP原理】
一、预训练方法 1.1 图像文本模型图像特征提取模型：VIT 文本特征提取模型：Unimodal encoder; Image-grounded text encoder; Image-grounded 这是因为生成任务要求模型按序预测每一个词，不能访问未来的信息。Causal attention 能保证自回归生成的正确性，使模型适合用作 decoder，实现图像到文本的自然语言生成。对齐图像与文本的全局语义空间让正样本图文对更接近，负样本更远 Image-Text Matching Loss Image-grounded text encoder 学习图文细粒度语义对齐 text decoder 图像到文本的语言生成能力使用自回归预测生成 caption，优化交叉熵 Image-Text Contrastive Loss (ITC): InfoNCE（对比学习最后组成一个新的数据集预训练模型。
1K10编辑于 2025-07-01
来自专栏大模型成长之路
【大模型学习 | RAG & ReAct】
进阶prompting 基础的prompting技术中，都是通过样例提示，激活模型本身的推理功能，但在现实的情况中，依然存在着仅仅依靠模型本身的知识是无法解决的，例如：① 数据库知识不足 ② 模型能力缺乏等这种方式有效弥补了大模型记忆局限、提升了知识覆盖广度与事实准确性。它允许大模型在推理过程中“边思考（Reason），边行动（Act）”，即模型可以根据问题内容主动决定是否调用某个工具、调用哪个工具，并基于工具返回的结果进一步推理和生成回答。与其他 Agent 类方法类似，ReAct 也需要通过 Few-shot 样例进行提示设计，帮助模型学习在何种情况下调用工具，以及如何将工具的反馈信息融入最终答案中。 ⭐ 为了更灵活的调用工具以及对模型的选用，我们需要对模型、函数进行封装：模型封装from transformers import AutoTokenizer, AutoModelForCausalLM,
1.6K30编辑于 2025-07-17
来自专栏学习
【机器学习】---大语言模型
这些模型，犹如现代科技的语言魔法师，通过海量数据和尖端的深度学习技术训练而成，在自然语言的理解与生成上展现了无与伦比的能力。第一部分：什么是大语言模型？ 1. 走近大语言模型大语言模型并非传统意义上的“语言学家”，而是通过深度学习技术训练的大规模神经网络，其核心目标是理解、生成并操控自然语言。这些模型的强大之处在于，它们能够从海量的训练数据中学习语言的结构和语义关系，从而以极高的准确度生成自然语言文本。它们的核心技术依赖于一种名为Transformer的模型架构。模型训练的核心要素要构建一个大语言模型，仅依赖强大的算法是不够的。以下是训练过程中不可或缺的三个关键要素：海量语料库模型需要从海量数据中学习语言的多样性和复杂性。优化算法如 AdamW，这是一种适合深度学习的优化算法，可以显著提高训练效率。强大计算资源通常需要数百甚至数千块 GPU 或 TPU 才能完成大规模模型的训练。
56610编辑于 2025-01-13
大模型和机器学习
“学习大模型之前，要不要先学机器学习？” 这些问题的本质，是对两个概念的边界认知模糊。事实上，大模型是机器学习的一个子集，是机器学习技术在“大参数、大数据、大算力”时代的进化形态。 3.2 大模型的三大核心要素大模型的“大”，体现在三个方面，这也是大模型与传统机器学习模型的根本区别之一。决策树、SVM等）、深度学习模型（CNN、RNN等）、大模型是机器学习的一个子集，属于深度学习的范畴技术层级人工智能 > 机器学习 > 深度学习 > 大模型处于技术层级的最底层，是机器学习的进化形态 6.1 大模型依赖传统机器学习的理论基础大模型的核心技术，如梯度下降、反向传播、损失函数等，都来源于传统机器学习。没有传统机器学习的理论积累，就没有大模型的今天。此外，传统机器学习模型还可以作为大模型的“助手”，帮助大模型提升性能。比如，用传统机器学习模型做数据清洗和特征提取，再将处理后的数据输入到大模型中，提升大模型的训练效率。
14010编辑于 2026-04-14
来自专栏大模型成长之路
【大模型学习 | 词向量】
How achieveword2vec通过神经网络模型训练新的词向量表达模型中参数的定义：one-hot：1, 7 表示一共有七个单词；Embedding：表示输入层到隐藏层的权重矩阵，是从one-hot 向量到Embedding向量的关键，7, 3表示训练完成的每一个embedding向量维度为3；WeightLogits：表示隐藏层到输出层的权重矩阵，是模型损失计算的关键；Logits：表示最后每个单词输出的概率，与目标标签做损失进行模型训练；Lookup table语料库十分巨大，每个单词都采用one-hot输入训练会大大增加存储和计算开销，因此，在输入的过程，仅仅输入单词的索引值，例如在上述例子中，直接采用索引 CodingWord2Vec有两种模型结构：CBOW和Skip-gram，本质上的模型架构的不同：输入和输出一对多（Skip-gram）和多对一（CBOW）。，通过只更新负样本的权重，避免整个词汇表的计算Word2Vec模型本质是一个多分类问题，最后需要通过softmax激活函数判断哪一个单词的概率最大，因此需要计算所有单词的概率大小。
21910编辑于 2025-06-26
来自专栏大模型成长之路
【大模型学习 | Prompt工程基础学习】
prompting学习许多初学者，包括曾经的我，可能一开始都会有类似的误解——“Prompting 还需要专门学习吗？不就是像在百度里搜索问题一样吗？” 然而，真正深入接触大语言模型（LLM）后你会发现，Prompting 远不止是问问题那么简单。大模型本身拥有极强的推理能力、逻辑能力与知识覆盖面，但这些能力并不是在默认状态下自动调用的。（大模型本身无需挖掘的能力，也就是和搜索百度、谷歌一样简单）Few-shot Learning 指在 Prompt 中提供几个示例（一般 1~5 条)，引导语言模型理解任务格式与逻辑结构，再让模型生成新的答案 Large Language Models are Zero-Shot Reasoners这篇文章的作者在后来又提出了zero-shot COT，作者认为大型语言模型是零样本学习推理者，只需在每个答案前加上实际上，语义上相似 ≠ 推理逻辑相似，模型可能会模仿错误的推理思路；例如两个数学题看起来都提到了“平均值”，但一个是求加权平均，一个是普通平均，提示错误会让模型走错方向。
1.2K21编辑于 2025-07-15
来自专栏DevOps
AI模型：开源大语言模型bloom学习
作为一名开源爱好者，我非常不喜欢知识付费或者服务收费的理念，所以便有决心写下此系列，让一般大众们可以不付费的玩转当下比较新的开源大语言模型bloom及其问答系列模型bloomz。一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的大语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本，本文中出于让大家都能动手实践的考虑，选择最小号的bloom-1b1版本，其他模型请自行尝试。 (checkpoint) #下载模型网速足够快的情况下等一会就下载好了，但通常情况下我们得ctrl+c打断代码运行，手动下载模型存放到对应位置，即.cache\huggingface\hub\models–bigscience–bloom 下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件（不包含这个flax_model.msgpack）
90910编辑于 2024-03-29
来自专栏大模型成长之路
【大模型学习 | LORA 原理&实现】
for loralib, an implementation of "LoRA: Low-Rank Adaptation of Large Language Models"GPT-3： 175B 微调模型变得十分的贵作者提出利用Low-Rank Adaption 来冻结训练模型的权重，并且加入可训练的rank decomposition matrices在transformer架构的每一个层中。 ✅ 将训练参数和显存需求分别缩小了10000倍以及3倍✅ 尽管深度模型在训练时使用了大量参数（也就是过参数化），但最终模型学到的知识（即其在参数空间中的表示）实际上只占据了一个很小的有效维度（intrinsic ❓ 为什么不直接加个模块，例如在每一层中加入一个小的瓶颈模块这些方法最主要的缺点是需要在模型的表现和效率进行权衡，并且对于实时推理和更大规模的模型都有局限性1、LOW-RANK-PARAMETRIZED 接着对$\bigtriangledown W$进行缩放（为了避免$\bigtriangledown W$对原模型造成影响，避免训练不稳定），作者提出了调整了$\alpha$就相当于调整了学习率在
97210编辑于 2025-06-27
来自专栏最新最全的大数据技术体系
大模型学习路线与建议
第一章深度学习基础深度学习基础深度学习经典模型解析深度学习模型优化策略解析深度学习GPU原理与应用方法深度学习GPU并行训练策略解析深度学习模型多GPU训练实战第二章智能对话系统基础） Langchain 框架核心原理详解 Langchain-LLM部署应用实战第四章大模型应用实践大模型微调概述大模型微调中的核心要素大模型微调中的数据收集与评估大模型微调中ChatGPT 的使用大模型Tuning技术详解（Prompt-Tuning/Instruction-Tuning/P-Tuning）大模型PEFT技术详解（Adapter/LoRA）大模型全参数微调技术详解（DeepSpeed）大模型RLHF技术详解（PPO/DeepSpeed-Chat）基于常规NLP任务的大模型微调实战第五章大模型实战项目大模型训练环境搭建大模型数据收集与 instruction 设计通用大模型微调代码开发（支持多模型/多框架） Baichuan-13B多GPU LoRA微调实现 Baichuan-13B多GPU 全参数微调实现大模型性能评估体系搭建大模型部署与服务接口开发
4.1K43编辑于 2023-10-17
来自专栏大模型成长之路
【大模型学习 | CLIP 原理&实现】
Learning Transferable Visual Models From Natural Language Supervision 作者在摘要中指出，传统的监督式学习方法限制了视觉模型的泛化能力以往的图像识别任务通常依赖于人为定义的分类标签进行训练，这种方式不仅数据成本高，而且模型更容易过拟合于训练类别。为了解决这一问题，CLIP 提出了一个新的预训练框架：利用网络上现成的大规模图文对（如标题+图像）作为监督信号，将图像与自然语言描述进行匹配，从而在无需特定分类标签的情况下，学习具有通用性的视觉表征。 CNN和Transformer来预测图像标题；（Transformer采用了6300万个参数，识别图像的类别会比训练一个词袋模型慢三倍）；这两种方法来学习识别图像都有一个相同点：预测图像的准确文字；，最大化配对图文之间的相似度，最小化不匹配对的相似度，并通过symeertric entropy loss优化相似得分：训练模型并没有采用预训练权重模型，而是从头训练；并通过线性映射将不同模态编码器的表示映射到嵌入空间中
1.9K21编辑于 2025-07-15
来自专栏大模型成长之路
【大模型学习 | RAG & DeepSeek 实战】
Deepseek & RAG 实战编者常常有许多材料需要阅读查阅，但自己又比较懒，为此，想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来，加快自身的效率。在本次的项目设计，需要达成以下目标：开源大模型的本地部署及使用（以Deepseek为例）； PDF文本分析 ➕ 相似prompt检索提取（关键）；将检索到的信息与原prompt结合作为输入，得到结果 promptmessages = [ {"role": "user", "content": f"""请根据以下参考内容回答问题： {retrieved} 问题：{query}"""}]4️⃣ 模型部署 mode_name_or_path)llm.generation_config.pad_token_id = llm.generation_config.eos_token_idllm.eval() # 设置模型为评估模式 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的大模型问答系统：搭建知识库后：模型输出写在最后：✅ 本项目搭建了一个简单的知识库问答系统，用户可以将自己的私人知识库进行搭建，基于RAG技术实现问答系统
1K31编辑于 2025-07-19
来自专栏面经
【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU
RoPE / SwiGLU前言✍ 上一篇我们把现代大模型的两件“基础设施”——GQA 注意力和 RMSNorm + Pre-Norm 细讲了一遍，从多头注意力的演化一路讲到归一化的升级。，但模型未必学会用。 ② 明确表示了sin-cos 虽然能算，但模型未必学会用，对远超训练长度的位置（比如 8192）对应的正弦相位组合，模型可能根本没“学会如何解读”；因此这里根本不会自相矛盾，用一句土话讲就是“可以但没用的外推读者可能都知道旋转编码就是在Q K上进行旋转，但具体是怎么让模型知道了他们的相对位置信息呢？为什么大模型更喜欢用 SwiGLU？标准 FFN 只是一条 MLP 路径，所有通道共享同一个激活函数。
80430编辑于 2025-11-20
来自专栏大模型成长之路
【大模型学习 | BERT 量化实战（2）】
BERT 量化实战分析前言：在【大模型学习 | 量化实战（1）】-腾讯云开发者社区-腾讯云中基于BERT实现了情感分析系统以及量化的实现，但是量化的结果导致了模型的精确度急剧下降，从90%降到了54%，为此，在本章中，尽可能的分析导致量化后模型精度下降的原因上期问题在量化过程中，发现无法采用export量化，但是 Eager Mode 成功了， Eager Mode 只对线性层进行了量化，而没有对未出现截断情况（即分布区域超过量化上下限）、分布近似 scale过大scale的计算如下所示：scale=\frac{max(w)-min(w)}{255} , 个别层的权重有离群值，会导致scale非常大，，观察精度下降情况误差传播分析对 float32 模型和量化模型，输入相同的样本；逐层提取中间层输出；对每层输出计算误差（如 MSE、Cosine 距离等）；画出误差随层数变化的曲线 → 看是否有层明显放大了误差；具体样本误差对比目标：某个具体输入，FP32 模型 vs INT8 模型输出差异有多大
78710编辑于 2025-06-27
来自专栏大模型成长之路
【大模型学习 | MINIGPT-4原理】
开源代码：https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致，可以参考：【大模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former layer与预训练的图像模型特征交互；除此之外，这组可学习的嵌入向量也与文本token进行拼接作为Text transformer的输入；将Q-Former初始化为 $\text{BERT}_{\ ITC：图像、文本特征对比学习，通过可学习的查询向量和Text transformer中的CLS计算相似度，为了防止数据泄露，采用unimodal self-attention，禁止 query 与文本将图像通过图像冻结模型和Image Transformer得到与文本语义最相关、最具信息量的视觉特征。接着通过一个全连接层的线性变换，将大小转换为符合到LLM模型中的输入维度。在这个阶段中，作者采用了一个先进的语言模型Vicuna作为线性变换向量的输入。二、数据与实验2.1 数据作者提出了短标题文本对对于模型的训练来说是不够的，会出现不自然标题的现象。
73910编辑于 2025-07-02
来自专栏开源技术小栈
PHP大模型深度学习库TransformersPHP
概述 TransformersPHP是一个工具包，PHP开发人员可以轻松地将机器学习魔法添加到他们的项目中。 “预训练模型”只是从大量文本数据中获得和学习的机器学习模型。它们已经准备好开箱即用，可以执行各种任务。使用TransformersPHP，这些模型直接在PHP应用程序中运行。 ONNX引擎看起来似乎是一个复杂的术语，但它本质上是一个高性能引擎，旨在推断和加速机器学习模型。开放神经网络交换（ONNX）格式是该引擎的核心，是机器学习模型的通用格式。这意味着无论最初使用哪个框架来训练模型-无论是PyTorch，TensorFlow，JAX，甚至是经典的机器学习库，如scikit-learn，LightGBM，XGBoost等-可以转换为ONNX格式它在机器学习世界和PHP开发之间创建了一个无缝的桥梁，允许您在应用程序中利用强大的模型。
84910编辑于 2024-08-27
来自专栏大模型成长之路
【大模型学习 | BERT 量化实战（1）】
BERT 情感分析一、数据集加载与模型训练 from transformers import BertTokenizer, BertForSequenceClassification, Trainer 加载训练后BERT模型和tokenizer model_name = ". 加载原始模型 model_name = ". 将模型移到 CPU（Eager 模式量化推荐在 CPU 上执行） model.to('cpu') # 3. 导出模型 ep = export(model, args=example_inputs,dynamic_shapes=None) gm = ep.graph_module # 4.
98710编辑于 2025-06-27
来自专栏大模型成长之路
【大模型学习 | RAG & DeepSeek 实战（二）】
Deepseek & RAG 实战（二）在【大模型学习 | RAG & DeepSeek 实战】-腾讯云开发者社区-腾讯云文章中，已经实现了基于RAG建立了本地知识库，通过检索相似度最高的知识来辅助大模型的问答系统文中提的是“省部级奖励金额”，但向量模型可能找不到这段“我想了解奖助学金政策” 向量模型找“奖学金”段落，但“助学金”是关键词 “获得奖项后的政策支持？” 这时候引入rerank 模型（如 BGE-Reranker、ColBERT），对多个段落的得分进行重排序，具体实现：1️⃣ 将 (query, paragraph) 成对送入 BERT/Transformer 在原来的代码中,我们没有采用任何的向量压缩,采用了最简单和最基础的检索方式IndexFlatL2,通过欧氏距离进行相似度计算,为了加快检索速度, faiss提供了多种压缩方式:✅ 必须了解底层原理（尤其你是大模型工程师
89621编辑于 2025-07-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

AI大模型学习

AI大模型学习

【大模型学习 | LLaMA Serious】

【大模型学习 | BLIP原理】

【大模型学习 | RAG & ReAct】

【机器学习】---大语言模型

大模型和机器学习

【大模型学习 | 词向量】

【大模型学习 | Prompt工程基础学习】

AI模型：开源大语言模型bloom学习

【大模型学习 | LORA 原理&实现】

大模型学习路线与建议

【大模型学习 | CLIP 原理&实现】

【大模型学习 | RAG & DeepSeek 实战】

【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU

【大模型学习 | BERT 量化实战（2）】

【大模型学习 | MINIGPT-4原理】

PHP大模型深度学习库TransformersPHP

【大模型学习 | BERT 量化实战（1）】

【大模型学习 | RAG & DeepSeek 实战（二）】

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

AI大模型学习

AI大模型学习

【大模型学习 | LLaMA Serious】

【大模型学习 | BLIP原理】

【大模型学习 | RAG & ReAct】

【机器学习】---大语言模型

大模型和机器学习

【大模型学习 | 词向量】

【大模型学习 | Prompt工程基础学习】

AI模型：开源大语言模型bloom学习

【大模型学习 | LORA 原理&实现】

大模型学习路线与建议

【大模型学习 | CLIP 原理&实现】

【大模型学习 | RAG & DeepSeek 实战】

【大模型学习】现代大模型架构（二）：旋转位置编码和SwiGLU

【大模型学习 | BERT 量化实战（2） 】

【大模型学习 | MINIGPT-4原理】

PHP大模型深度学习库TransformersPHP

【大模型学习 | BERT 量化实战（1）】

【大模型学习 | RAG & DeepSeek 实战（二）】

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【大模型学习 | BERT 量化实战（2）】