首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能领域

    AI模型学习

    AI模型学习 在当前技术环境下,AI模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。 方向一:AI模型学习的理论基础 AI 模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。 以下是一些关于 AI 模型学习理论基础的重要内容: 深度学习:深度学习是 AI 模型学习的核心理论基础,它通过构建多层神经网络来实现对复杂数据模式的学习和表征。 ———————————————— 方向二:AI模型的训练与优化 AI 模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。 以下是一些关于 AI 模型学习理论基础的重要内容: 深度学习:深度学习是 AI 模型学习的核心理论基础,它通过构建多层神经网络来实现对复杂数据模式的学习和表征。

    64210编辑于 2024-12-18
  • 来自专栏司钰秘籍

    AI模型学习

    在当前技术环境下,AI模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。 通过不断优化模型结构和算法,AI模型学习能够不断提升模型的准确性和效率,为人类生活和工作带来更多便利。 AI模型学习的理论基础 数学基础: 线性代数:AI 模型中大量使用向量和矩阵运算,如矩阵乘法、向量点积等,用于表示和操作数据。 解释性较差,难以理解模型的决策过程。 AI模型的训练与优化 训练和优化大规模机器学习模型确实是一个具有挑战性的任务,以下是一些有效的方法和技巧: 1. 此外,模型的性能也受到计算资源、数据质量和算法优化等因素的影响 AI模型学习的伦理与社会影响 AI 模型学习确实带来了一些伦理和社会问题,我们需要认真对待: 1.

    65810编辑于 2024-04-04
  • 来自专栏大模型成长之路

    模型学习 | LLaMA Serious】

    一、LLaMA V1这篇文章主要是引出模型的表现力并不是在模型的大小,而是训练数据的样本。之前的做法是尽可能的减少模型大小,但是这些方法忽略了推理代价。 在 PaLM、LLaMA、DeepSeek 等模型上被广泛使用,带来精度提升。 其中, W,V 是可学习的权重矩阵b,c 是偏置项3️⃣ 位置编码采用了旋转位置编码:RoPE(Rotary Positional Embedding)RoPE 是一种通过“旋转”的方式,将相对位置信息引入注意力机制中的位置编码方法 图片4️⃣ Causal multi-head attention LLaMA是 only-decoder结构的模型,属于自回归语言模型(类似GPT)。 0, 0, -inf, -inf], [0, 0, 0, 0, -inf], [0, 0, 0, 0, 0]]二、LLaMA V2部分的预训练设置都与

    46030编辑于 2025-07-25
  • 来自专栏大模型成长之路

    模型学习 | BLIP原理】

    一、预训练方法 1.1 图像文本模型 图像特征提取模型:VIT 文本特征提取模型:Unimodal encoder; Image-grounded text encoder; Image-grounded 这是因为生成任务要求模型按序预测每一个词,不能访问未来的信息。Causal attention 能保证自回归生成的正确性,使模型适合用作 decoder,实现图像到文本的自然语言生成。 对齐图像与文本的全局语义空间 让正样本图文对更接近,负样本更远 Image-Text Matching Loss Image-grounded text encoder 学习图文细粒度语义对齐 text decoder 图像到文本的语言生成能力 使用自回归预测生成 caption,优化交叉熵 Image-Text Contrastive Loss (ITC): InfoNCE(对比学习 最后组成一个新的数据集预训练模型

    1K10编辑于 2025-07-01
  • 来自专栏大模型成长之路

    模型学习 | RAG & ReAct】

    进阶prompting 基础的prompting技术中,都是通过样例提示,激活模型本身的推理功能,但在现实的情况中,依然存在着仅仅依靠模型本身的知识是无法解决的,例如:① 数据库知识不足 ② 模型能力缺乏等 这种方式有效弥补了模型记忆局限、提升了知识覆盖广度与事实准确性。 它允许模型在推理过程中“边思考(Reason),边行动(Act)”,即模型可以根据问题内容主动决定是否调用某个工具、调用哪个工具,并基于工具返回的结果进一步推理和生成回答。 与其他 Agent 类方法类似,ReAct 也需要通过 Few-shot 样例 进行提示设计,帮助模型学习在何种情况下调用工具,以及如何将工具的反馈信息融入最终答案中。 ⭐ 为了更灵活的调用工具以及对模型的选用,我们需要对模型、函数进行封装:模型封装from transformers import AutoTokenizer, AutoModelForCausalLM,

    1.6K30编辑于 2025-07-17
  • 来自专栏学习

    【机器学习】---语言模型

    这些模型,犹如现代科技的语言魔法师,通过海量数据和尖端的深度学习技术训练而成,在自然语言的理解与生成上展现了无与伦比的能力。 第一部分:什么是语言模型? 1. 走近语言模型 语言模型并非传统意义上的“语言学家”,而是通过深度学习技术训练的大规模神经网络,其核心目标是理解、生成并操控自然语言。 这些模型的强大之处在于,它们能够从海量的训练数据中学习语言的结构和语义关系,从而以极高的准确度生成自然语言文本。 它们的核心技术依赖于一种名为Transformer的模型架构。 模型训练的核心要素 要构建一个语言模型,仅依赖强大的算法是不够的。以下是训练过程中不可或缺的三个关键要素: 海量语料库 模型需要从海量数据中学习语言的多样性和复杂性。 优化算法 如 AdamW,这是一种适合深度学习的优化算法,可以显著提高训练效率。 强大计算资源 通常需要数百甚至数千块 GPU 或 TPU 才能完成大规模模型的训练。

    56610编辑于 2025-01-13
  • 模型和机器学习

    学习模型之前,要不要先学机器学习?” 这些问题的本质,是对两个概念的边界认知模糊。事实上,模型是机器学习的一个子集,是机器学习技术在“参数、大数据、算力”时代的进化形态。 3.2 模型的三核心要素 模型的“”,体现在三个方面,这也是模型与传统机器学习模型的根本区别之一。 决策树、SVM等)、深度学习模型(CNN、RNN等)、模型 是机器学习的一个子集,属于深度学习的范畴 技术层级 人工智能 > 机器学习 > 深度学习 > 模型 处于技术层级的最底层,是机器学习的进化形态 6.1 模型依赖传统机器学习的理论基础 模型的核心技术,如梯度下降、反向传播、损失函数等,都来源于传统机器学习。没有传统机器学习的理论积累,就没有模型的今天。 此外,传统机器学习模型还可以作为模型的“助手”,帮助模型提升性能。比如,用传统机器学习模型做数据清洗和特征提取,再将处理后的数据输入到模型中,提升模型的训练效率。

    14010编辑于 2026-04-14
  • 来自专栏大模型成长之路

    模型学习 | 词向量】

    How achieveword2vec通过神经网络模型训练新的词向量表达模型中参数的定义:one-hot:1, 7 表示一共有七个单词;Embedding:表示输入层到隐藏层的权重矩阵,是从one-hot 向量到Embedding向量的关键,7, 3表示训练完成的每一个embedding向量维度为3;WeightLogits:表示隐藏层到输出层的权重矩阵,是模型损失计算的关键;Logits:表示最后每个单词输出的概率 ,与目标标签做损失进行模型训练;Lookup table语料库十分巨大,每个单词都采用one-hot输入训练会大大增加存储和计算开销,因此,在输入的过程,仅仅输入单词的索引值,例如在上述例子中,直接采用索引 CodingWord2Vec有两种模型结构:CBOW和Skip-gram,本质上的模型架构的不同:输入和输出一对多(Skip-gram)和多对一(CBOW)。 ,通过只更新负样本的权重,避免整个词汇表的计算Word2Vec模型本质是一个多分类问题,最后需要通过softmax激活函数判断哪一个单词的概率最大,因此需要计算所有单词的概率大小。

    21910编辑于 2025-06-26
  • 来自专栏大模型成长之路

    模型学习 | Prompt工程基础学习

    prompting学习 许多初学者,包括曾经的我,可能一开始都会有类似的误解——“Prompting 还需要专门学习吗?不就是像在百度里搜索问题一样吗?” 然而,真正深入接触语言模型(LLM)后你会发现,Prompting 远不止是问问题那么简单。模型本身拥有极强的推理能力、逻辑能力与知识覆盖面,但这些能力并不是在默认状态下自动调用的。 (模型本身无需挖掘的能力,也就是和搜索百度、谷歌一样简单)Few-shot Learning 指在 Prompt 中提供几个示例(一般 1~5 条),引导语言模型理解任务格式与逻辑结构,再让模型生成新的答案 Large Language Models are Zero-Shot Reasoners这篇文章的作者在后来又提出了zero-shot COT,作者认为大型语言模型是零样本学习推理者,只需在每个答案前加上 实际上,语义上相似 ≠ 推理逻辑相似,模型可能会模仿错误的推理思路;例如两个数学题看起来都提到了“平均值”,但一个是求加权平均,一个是普通平均,提示错误会让模型走错方向。

    1.2K21编辑于 2025-07-15
  • 来自专栏DevOps

    AI模型:开源语言模型bloom学习

    作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源语言模型bloom及其问答系列模型bloomz。 一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本,本文中出于让大家都能动手实践的考虑,选择最小号的bloom-1b1版本,其他模型请自行尝试。 (checkpoint) #下载模型 网速足够快的情况下等一会就下载好了,但通常情况下我们得ctrl+c打断代码运行,手动下载模型存放到对应位置,即.cache\huggingface\hub\models–bigscience–bloom 下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件(不包含这个flax_model.msgpack)

    90910编辑于 2024-03-29
  • 来自专栏大模型成长之路

    模型学习 | LORA 原理&实现】

    for loralib, an implementation of "LoRA: Low-Rank Adaptation of Large Language Models"GPT-3: 175B 微调模型变得十分的贵 作者提出利用Low-Rank Adaption 来冻结训练模型的权重,并且加入可训练的rank decomposition matrices在transformer架构的每一个层中。 ✅ 将训练参数和显存需求分别缩小了10000倍以及3倍✅ 尽管深度模型在训练时使用了大量参数(也就是过参数化),但最终模型学到的知识(即其在参数空间中的表示)实际上只占据了一个很小的有效维度(intrinsic ❓ 为什么不直接加个模块,例如在每一层中加入一个小的瓶颈模块 这些方法最主要的缺点是需要在模型的表现和效率进行权衡,并且对于实时推理和更大规模的模型都有局限性1、LOW-RANK-PARAMETRIZED 接着对$\bigtriangledown W$进行缩放(为了避免$\bigtriangledown W$对原模型造成影响,避免训练不稳定),作者提出了调整了$\alpha$就相当于调整了学习率在

    97210编辑于 2025-06-27
  • 来自专栏最新最全的大数据技术体系

    模型学习路线与建议

    第一章 深度学习基础 深度学习基础 深度学习经典模型解析 深度学习模型优化策略解析 深度学习GPU原理与应用方法 深度学习GPU并行训练策略解析 深度学习模型多GPU训练实战 第二章 智能对话系统基础 ) Langchain 框架核心原理详解 Langchain-LLM部署应用实战 第四章 模型应用实践 模型微调概述 模型微调中的核心要素 模型微调中的数据收集与评估 模型微调中ChatGPT 的使用 模型Tuning技术详解(Prompt-Tuning/Instruction-Tuning/P-Tuning) 模型PEFT技术详解(Adapter/LoRA) 模型全参数微调技术详解 (DeepSpeed) 模型RLHF技术详解(PPO/DeepSpeed-Chat) 基于常规NLP任务的模型微调实战 第五章 模型实战项目 模型训练环境搭建 模型数据收集与 instruction 设计 通用模型微调代码开发(支持多模型/多框架) Baichuan-13B多GPU LoRA微调实现 Baichuan-13B多GPU 全参数微调实现 模型性能评估体系搭建 模型部署与服务接口开发

    4.1K43编辑于 2023-10-17
  • 来自专栏大模型成长之路

    模型学习 | CLIP 原理&实现】

    Learning Transferable Visual Models From Natural Language Supervision 作者在摘要中指出,传统的监督式学习方法限制了视觉模型的泛化能力 以往的图像识别任务通常依赖于人为定义的分类标签进行训练,这种方式不仅数据成本高,而且模型更容易过拟合于训练类别。 为了解决这一问题,CLIP 提出了一个新的预训练框架:利用网络上现成的大规模图文对(如标题+图像)作为监督信号,将图像与自然语言描述进行匹配,从而在无需特定分类标签的情况下,学习具有通用性的视觉表征。 CNN和Transformer来预测图像标题;(Transformer采用了6300万个参数,识别图像的类别会比训练一个词袋模型慢三倍);这两种方法来学习识别图像都有一个相同点:预测图像的准确文字; ,最大化配对图文之间的相似度,最小化不匹配对的相似度,并通过symeertric entropy loss优化相似得分: 训练模型并没有采用预训练权重模型,而是从头训练;并通过线性映射将不同模态编码器的表示映射到嵌入空间中

    1.9K21编辑于 2025-07-15
  • 来自专栏大模型成长之路

    模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在模型学习过程中基于RAG技术将本地知识库与模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 promptmessages = [ {"role": "user", "content": f"""请根据以下参考内容回答问题: {retrieved} 问题:{query}"""}]4️⃣ 模型部署 mode_name_or_path)llm.generation_config.pad_token_id = llm.generation_config.eos_token_idllm.eval() # 设置模型为评估模式 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的模型问答系统:搭建知识库后:模型输出写在最后:✅ 本项目搭建了一个简单的知识库问答系统,用户可以将自己的私人知识库进行搭建,基于RAG技术实现问答系统

    1K31编辑于 2025-07-19
  • 来自专栏面经

    模型学习】现代模型架构(二):旋转位置编码和SwiGLU

    RoPE / SwiGLU前言✍ 上一篇我们把现代模型的两件“基础设施”——GQA 注意力 和 RMSNorm + Pre-Norm 细讲了一遍,从多头注意力的演化一路讲到归一化的升级。 ,但模型未必学会用。 ② 明确表示了sin-cos 虽然能算,但模型未必学会用,对远超训练长度的位置(比如 8192)对应的正弦相位组合,模型可能根本没“学会如何解读”;因此这里根本不会自相矛盾,用一句土话讲就是“可以但没用的外推 读者可能都知道旋转编码就是在Q K上进行旋转,但具体是怎么让模型知道了他们的相对位置信息呢? 为什么模型更喜欢用 SwiGLU?标准 FFN 只是一条 MLP 路径,所有通道共享同一个激活函数。

    80430编辑于 2025-11-20
  • 来自专栏大模型成长之路

    模型学习 | BERT 量化实战(2) 】

    BERT 量化实战分析前言:在【模型学习 | 量化实战(1)】-腾讯云开发者社区-腾讯云中基于BERT实现了情感分析系统以及量化的实现,但是量化的结果导致了模型的精确度急剧下降,从90%降到了54%, 为此,在本章中,尽可能的分析导致量化后模型精度下降的原因上期问题 在量化过程中,发现无法采用export量化,但是 Eager Mode 成功了, Eager Mode 只对线性层进行了量化,而没有对 未出现截断情况(即分布区域超过量化上下限)、分布近似 scale过大scale的计算如下所示:scale=\frac{max(w)-min(w)}{255} , 个别层的权重有离群值,会导致scale非常, ,观察精度下降情况误差传播分析对 float32 模型 和 量化模型,输入相同的样本;逐层提取中间层输出;对每层输出计算误差(如 MSE、Cosine 距离等);画出误差随层数变化的曲线 → 看是否有层明显放大了误差 ;具体样本误差对比目标:某个具体输入,FP32 模型 vs INT8 模型输出差异有多大

    78710编辑于 2025-06-27
  • 来自专栏大模型成长之路

    模型学习 | MINIGPT-4原理】

    开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former layer与预训练的图像模型特征交互; 除此之外,这组可学习的嵌入向量也与文本token进行拼接作为Text transformer的输入; 将Q-Former初始化为 $\text{BERT}_{\ ITC:图像、文本特征对比学习,通过可学习的查询向量和Text transformer中的CLS计算相似度,为了防止数据泄露,采用unimodal self-attention,禁止 query 与文本 将图像通过图像冻结模型和Image Transformer得到与文本语义最相关、最具信息量的视觉特征。接着通过一个全连接层的线性变换,将大小转换为符合到LLM模型中的输入维度。 在这个阶段中,作者采用了一个先进的语言模型Vicuna作为线性变换向量的输入。二、数据与实验2.1 数据作者提出了短标题文本对对于模型的训练来说是不够的,会出现不自然标题的现象。

    73910编辑于 2025-07-02
  • 来自专栏开源技术小栈

    PHP模型深度学习库TransformersPHP

    概述 TransformersPHP是一个工具包,PHP开发人员可以轻松地将机器学习魔法添加到他们的项目中。 “预训练模型”只是从大量文本数据中获得和学习的机器学习模型。它们已经准备好开箱即用,可以执行各种任务。使用TransformersPHP,这些模型直接在PHP应用程序中运行。 ONNX引擎看起来似乎是一个复杂的术语,但它本质上是一个高性能引擎,旨在推断和加速机器学习模型。开放神经网络交换(ONNX)格式是该引擎的核心,是机器学习模型的通用格式。 这意味着无论最初使用哪个框架来训练模型-无论是PyTorch,TensorFlow,JAX,甚至是经典的机器学习库,如scikit-learn,LightGBM,XGBoost等-可以转换为ONNX格式 它在机器学习世界和PHP开发之间创建了一个无缝的桥梁,允许您在应用程序中利用强大的模型

    84910编辑于 2024-08-27
  • 来自专栏大模型成长之路

    模型学习 | BERT 量化实战(1)】

    BERT 情感分析 一、 数据集加载与模型训练 from transformers import BertTokenizer, BertForSequenceClassification, Trainer 加载训练后BERT模型和tokenizer model_name = ". 加载原始模型 model_name = ". 将模型移到 CPU(Eager 模式量化推荐在 CPU 上执行) model.to('cpu') # 3. 导出模型 ep = export(model, args=example_inputs,dynamic_shapes=None) gm = ep.graph_module # 4.

    98710编辑于 2025-06-27
  • 来自专栏大模型成长之路

    模型学习 | RAG & DeepSeek 实战(二)】

    Deepseek & RAG 实战(二)在【模型学习 | RAG & DeepSeek 实战】-腾讯云开发者社区-腾讯云文章中,已经实现了基于RAG建立了本地知识库,通过检索相似度最高的知识来辅助模型的问答系统 文中提的是“省部级奖励金额”,但向量模型可能找不到这段“我想了解奖助学金政策” 向量模型找“奖学金”段落,但“助学金”是关键词 “获得奖项后的政策支持?” 这时候引入rerank 模型(如 BGE-Reranker、ColBERT),对多个段落的得分进行重排序,具体实现:1️⃣ 将 (query, paragraph) 成对送入 BERT/Transformer 在原来的代码中,我们没有采用任何的向量压缩,采用了最简单和最基础的检索方式IndexFlatL2,通过欧氏距离进行相似度计算,为了加快检索速度, faiss提供了多种压缩方式:✅ 必须了解底层原理(尤其你是模型工程师

    89621编辑于 2025-07-20
领券