首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型成长之路

    模型学习 | Prompt工程基础学习

    prompting学习 许多初学者,包括曾经的我,可能一开始都会有类似的误解——“Prompting 还需要专门学习吗?不就是像在百度里搜索问题一样吗?” 然而,真正深入接触语言模型(LLM)后你会发现,Prompting 远不止是问问题那么简单。模型本身拥有极强的推理能力、逻辑能力与知识覆盖面,但这些能力并不是在默认状态下自动调用的。 基础promptingZero-shot & Few-shotZero-shot Learning 是指在没有提供任何示例的前提下,模型仅通过任务描述或问题本身进行推理和生成。 (模型本身无需挖掘的能力,也就是和搜索百度、谷歌一样简单)Few-shot Learning 指在 Prompt 中提供几个示例(一般 1~5 条),引导语言模型理解任务格式与逻辑结构,再让模型生成新的答案 Large Language Models are Zero-Shot Reasoners这篇文章的作者在后来又提出了zero-shot COT,作者认为大型语言模型是零样本学习推理者,只需在每个答案前加上

    1.2K21编辑于 2025-07-15
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(一):模型基础知识篇

    1.前言 1.1 基础模型研究 2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长: 2023 年 3 月,智谱 AI 首先在魔搭社区发布了 ChatGLM-6B 系列 2023 年 7 月,上海人工智能实验室在 WAIC 2023 开幕式和科学前沿全体会议上,联合多家机构发布全新升级的 “书生通用模型体系”,包括书生 · 多模态、书生 · 浦语和书生 · 天际等三基础模型 首先,所有的语言模型(LLM)的工作方式都是接收一些文本,然后预测最有可能出现在其后面的文本。 base 模型,也就是基础模型,是在海量不同文本上训练出来的预测后续文本的模型。 chat 模型,也就是对话模型,是在 base 基础上通过对话记录(指令 - 响应)继续做微调和强化学习,让它接受指令和用户对话时,续写出来的是遵循指令的,人类预期的 assistant 的响应内容。 记忆(Memory):短期记忆(上下文,长窗口),长期记忆(通过搜索或者向量引擎实现) 工具使用(tool use):模型学习调用外部 API 获取额外的能力。

    4.3K512编辑于 2024-05-11
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 RL是强化学习,这个过程包括两个阶段,第一个阶段是训练一个奖励模型,用于代替人类对可以验证和不可以验证的领域问题进行排序,然后基于奖励模型实现RL。 人类对齐(Human Alignment) ➢ 将语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法(RLHF) 模型的研发已经成为一项系统工程 扩展定律( :“在小型模型中不存在、但在模型中出现的能力” ➢ 模型扩展到一定规模时,特定任务性能突然出现显著跃升趋势,远超随机水平 上下文学习(In-context Learning, ICL). 逐步推理(Step-by-step Reasoning) 上下文学习(In-context Learning) ➢ 在提示中为语言模型提供自然语言指令和任务示例,无需显式梯度更新就能为测试样本生成

    51410编辑于 2025-03-15
  • 来自专栏大模型成长之路

    ​【模型学习 | 量化】pytorch量化基础知识(1)

    performing computations and storing tensors at lower bitwidths than floating point precision.支持INT8量化,可以降低4倍的模型大小以及显存需求 ,加速2-4倍的推理速度通俗理解:降低权重和激活值的精度(FP32→INT8),从而提高模型大小以及显存需求。 notePTQ 是直接对训练后的模型参数进行量化,因此适合于快速部署;QAT是通过插入伪量化节点,在训练过程中模拟量化误差以达到更高的精度,因此需要重新训练。 ⚙️ 区别特性 PTQ(训练后量化) QAT(量化感知训练) 训练阶段仅FP32训练 插入伪量化节点训练反向传播❌ 不支持 ✅ 通过STE支持 精度损失较大(尤其小模型)通常更小 model, qconfig_mapping, example_inputs)model_quantized = quantize_fx.convert_fx(model_prepared) 核心功能:在模型的每一个

    51210编辑于 2025-06-25
  • 来自专栏人工智能领域

    AI模型学习

    AI模型学习 在当前技术环境下,AI模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。 方向一:AI模型学习的理论基础 AI 模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。 以下是一些关于 AI 模型学习理论基础的重要内容: 深度学习:深度学习是 AI 模型学习的核心理论基础,它通过构建多层神经网络来实现对复杂数据模式的学习和表征。 ———————————————— 方向二:AI模型的训练与优化 AI 模型学习的理论基础涉及深度学习、神经网络、优化算法等多个方面。 以下是一些关于 AI 模型学习理论基础的重要内容: 深度学习:深度学习是 AI 模型学习的核心理论基础,它通过构建多层神经网络来实现对复杂数据模式的学习和表征。

    64110编辑于 2024-12-18
  • 来自专栏司钰秘籍

    AI模型学习

    在当前技术环境下,AI模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。 通过不断优化模型结构和算法,AI模型学习能够不断提升模型的准确性和效率,为人类生活和工作带来更多便利。 AI模型学习的理论基础 数学基础: 线性代数:AI 模型中大量使用向量和矩阵运算,如矩阵乘法、向量点积等,用于表示和操作数据。 解释性较差,难以理解模型的决策过程。 AI模型的训练与优化 训练和优化大规模机器学习模型确实是一个具有挑战性的任务,以下是一些有效的方法和技巧: 1. 此外,模型的性能也受到计算资源、数据质量和算法优化等因素的影响 AI模型学习的伦理与社会影响 AI 模型学习确实带来了一些伦理和社会问题,我们需要认真对待: 1.

    65610编辑于 2024-04-04
  • 模型技术之Python基础

    用 Python 基础打底,让你的模型学习更快变现在人工智能浪潮席卷全球的今天,“模型”无疑是职场中最热门的关键词。无数人渴望搭上这趟快车,实现职业身价的跃升。 然而,在热度之下,许多学习者陷入了一个误区:试图跳过编程基础,直接通过所谓的“零代码”工具或碎片化的概念教学来掌握模型。 Python,作为人工智能时代的通用语言,正是连接模型技术与商业价值的那座桥梁。用 Python 基础打底,不仅能让你学得更稳,更能让你在变现之路上跑得更快。 对于学习者而言,如果不掌握 Python 基础,面对模型开发就只能停留在“黑盒”之外。许多人通过简单的网页对话框体验 AI,认为这就是模型应用的全部。 Python 不是模型学习的障碍,而是助飞的翅膀。与其在概念的海洋中漂浮,不如沉下心来,用 Python 基础打底,构建起坚实的技术底座。

    12510编辑于 2026-03-20
  • 基础手写模型

    超前布局:零基础手写模型备战未来十年的技术深度剖析在人工智能技术呈指数级迭代的当下,关于“是否需要从零手写模型”的讨论在技术圈内从未停歇。 首先,手写模型的过程,本质上是对深度学习计算图与数据流的深度解构。对于零基础学习者而言,这打破了调用高层 API 时的“黑盒魔咒”。 虽然零基础学习者可能无法立即接触万卡集群,但在单机环境中手写反向传播算法(Backpropagation)与优化器(如 AdamW),能直观揭示参数更新的动力学过程。 这种从微观机制出发的系统性思维,是未来构建高可用、高性能 AI 基础设施的必备素质。此外,手写模型构建了极强的调试与排错能力。 零基础手写模型,看似是一条枯燥、高难的“笨路”,实则是通往 AI 核心腹地的捷径。它筛选掉了那些浮躁的投机者,留下了真正具备扎实数理基础与工程落地能力的硬核人才。

    15510编辑于 2026-03-29
  • 基础学AI模型之读懂AI模型

    ,因此希望可以通过自己学习然后以写文章的形式向大家同样想零基础学习模型的同学进行互相交流,欢迎大家在评论区打出自己的疑问或者本文不正确的地方,我们一起学习基础学AI模型之读懂AI模型:从“能聊天 甚至企业里说的“开发模型”,真的是从头造一个“大脑”吗? 今天就用通俗的语言,把AI模型的核心逻辑、能力边界和落地场景讲透,最后再给大家一份主流模型的选择指南。 一、什么是AI模型? 先搞懂LLM的本质 我们常说的“AI模型”,核心是LLM(Large Language Model,语言模型) ——字面意思是“处理语言的大型模型”,但它的能力早已超出“语言”本身,更像一个“超级智能学习模型的“两大过人之处”:学得多、脑更活 普通人的学习,是读几十本课本、几千篇文章;而模型的“学习”,是把全网上的文字、图片、视频、专业论文、代码甚至历史数据“吞”一遍——相当于读完了几千万本“超级厚书 训练过程:把“知识”变成“规律手册” 模型的“学习期”(业内叫“训练”),本质是“啃规律”:它会从海量数据里提炼出各种关联——比如“月亮”和“地球绕转”“反光”相关,“圆缺”和“视线遮挡”相关;“苹果

    1.2K20编辑于 2025-12-22
  • 来自专栏大模型成长之路

    模型学习 | LLaMA Serious】

    一、LLaMA V1这篇文章主要是引出模型的表现力并不是在模型的大小,而是训练数据的样本。之前的做法是尽可能的减少模型大小,但是这些方法忽略了推理代价。 在 PaLM、LLaMA、DeepSeek 等模型上被广泛使用,带来精度提升。 其中, W,V 是可学习的权重矩阵b,c 是偏置项3️⃣ 位置编码采用了旋转位置编码:RoPE(Rotary Positional Embedding)RoPE 是一种通过“旋转”的方式,将相对位置信息引入注意力机制中的位置编码方法 图片4️⃣ Causal multi-head attention LLaMA是 only-decoder结构的模型,属于自回归语言模型(类似GPT)。 0, 0, -inf, -inf], [0, 0, 0, 0, -inf], [0, 0, 0, 0, 0]]二、LLaMA V2部分的预训练设置都与

    46030编辑于 2025-07-25
  • 来自专栏大模型成长之路

    模型学习 | BLIP原理】

    一、预训练方法 1.1 图像文本模型 图像特征提取模型:VIT 文本特征提取模型:Unimodal encoder; Image-grounded text encoder; Image-grounded 这是因为生成任务要求模型按序预测每一个词,不能访问未来的信息。Causal attention 能保证自回归生成的正确性,使模型适合用作 decoder,实现图像到文本的自然语言生成。 对齐图像与文本的全局语义空间 让正样本图文对更接近,负样本更远 Image-Text Matching Loss Image-grounded text encoder 学习图文细粒度语义对齐 text decoder 图像到文本的语言生成能力 使用自回归预测生成 caption,优化交叉熵 Image-Text Contrastive Loss (ITC): InfoNCE(对比学习 最后组成一个新的数据集预训练模型

    1K10编辑于 2025-07-01
  • 来自专栏大模型成长之路

    模型学习 | RAG & ReAct】

    进阶prompting 基础的prompting技术中,都是通过样例提示,激活模型本身的推理功能,但在现实的情况中,依然存在着仅仅依靠模型本身的知识是无法解决的,例如:① 数据库知识不足 ② 模型能力缺乏等 这种方式有效弥补了模型记忆局限、提升了知识覆盖广度与事实准确性。 它允许模型在推理过程中“边思考(Reason),边行动(Act)”,即模型可以根据问题内容主动决定是否调用某个工具、调用哪个工具,并基于工具返回的结果进一步推理和生成回答。 与其他 Agent 类方法类似,ReAct 也需要通过 Few-shot 样例 进行提示设计,帮助模型学习在何种情况下调用工具,以及如何将工具的反馈信息融入最终答案中。 ⭐ 为了更灵活的调用工具以及对模型的选用,我们需要对模型、函数进行封装:模型封装from transformers import AutoTokenizer, AutoModelForCausalLM,

    1.6K30编辑于 2025-07-17
  • 来自专栏学习

    【机器学习】---语言模型

    这些模型,犹如现代科技的语言魔法师,通过海量数据和尖端的深度学习技术训练而成,在自然语言的理解与生成上展现了无与伦比的能力。 第一部分:什么是语言模型? 1. 走近语言模型 语言模型并非传统意义上的“语言学家”,而是通过深度学习技术训练的大规模神经网络,其核心目标是理解、生成并操控自然语言。 这些模型的强大之处在于,它们能够从海量的训练数据中学习语言的结构和语义关系,从而以极高的准确度生成自然语言文本。 它们的核心技术依赖于一种名为Transformer的模型架构。 模型训练的核心要素 要构建一个语言模型,仅依赖强大的算法是不够的。以下是训练过程中不可或缺的三个关键要素: 海量语料库 模型需要从海量数据中学习语言的多样性和复杂性。 优化算法 如 AdamW,这是一种适合深度学习的优化算法,可以显著提高训练效率。 强大计算资源 通常需要数百甚至数千块 GPU 或 TPU 才能完成大规模模型的训练。

    56610编辑于 2025-01-13
  • 模型和机器学习

    二、基础概念铺垫:机器学习的前世今生 要理解模型与机器学习的差异,首先要搞清楚机器学习的核心定义、发展历程和技术分类。这是后续所有分析的基础。 三、模型的技术本质:机器学习的“超级进化体” 在理解了机器学习基础概念后,我们再来深入剖析模型的技术本质。 四、核心对比:模型与机器学习的10个维度差异 在理解了机器学习模型基础概念后,我们进入本文的核心部分:从10个维度,深度对比大模型与传统机器学习的差异。 6.1 模型依赖传统机器学习的理论基础 模型的核心技术,如梯度下降、反向传播、损失函数等,都来源于传统机器学习。没有传统机器学习的理论积累,就没有模型的今天。 七、给开发者和企业的建议 7.1 给开发者的建议 入门机器学习,先学传统算法:传统机器学习算法是人工智能的基础,掌握了传统算法,才能更好地理解模型的技术原理。

    9010编辑于 2026-04-14
  • 来自专栏第一专栏

    LLM-TAP随笔——语言模型基础【深度学习】【PyTorch】【LLM】

    2.语言模型基础 2.1、编码器和解码器架构 这个架构常用于编码器-解码器架构是一种常用于序列到序列(Seq2Seq)任务的深度学习架构。 2.2、注意力机制 2.2.1、注意力机制(Attention) 注意力机制允许模型在处理信息时更加灵活和智能地选择性地关注输入的不同部分,从而提高了模型的性能和表现力。 2.4、BERT 预训练模型:在大规模数据事先训练,然后在特定任务上微调。 预训练bert 预训练阶段包括了编码器和解码器的部分,用于学习通用表示,而下游任务通常涉及到对编码器和解码器的微调,以适应具体任务。 拿到预训练好的模型为底座,按照上述流程图去进行特定任务的微调。

    90530编辑于 2023-09-26
  • 来自专栏大模型成长之路

    模型学习 | 词向量】

    How achieveword2vec通过神经网络模型训练新的词向量表达模型中参数的定义:one-hot:1, 7 表示一共有七个单词;Embedding:表示输入层到隐藏层的权重矩阵,是从one-hot 向量到Embedding向量的关键,7, 3表示训练完成的每一个embedding向量维度为3;WeightLogits:表示隐藏层到输出层的权重矩阵,是模型损失计算的关键;Logits:表示最后每个单词输出的概率 ,与目标标签做损失进行模型训练;Lookup table语料库十分巨大,每个单词都采用one-hot输入训练会大大增加存储和计算开销,因此,在输入的过程,仅仅输入单词的索引值,例如在上述例子中,直接采用索引 CodingWord2Vec有两种模型结构:CBOW和Skip-gram,本质上的模型架构的不同:输入和输出一对多(Skip-gram)和多对一(CBOW)。 ,通过只更新负样本的权重,避免整个词汇表的计算Word2Vec模型本质是一个多分类问题,最后需要通过softmax激活函数判断哪一个单词的概率最大,因此需要计算所有单词的概率大小。

    21810编辑于 2025-06-26
  • 基础学AI模型之AI模型常见概念

    大家好,我是工藤学编程 一个正在努力学习的小博主,期待你的关注 实战代码系列最新文章 C++实现图书管理系统(Qt C++ GUI界面版) SpringBoot实战系列 【SpringBoot实战系列 零基础学AI模型之SpringAI 前情摘要: 1、零基础学AI模型之读懂AI模型 2、零基础学AI模型之从0到1调用模型API 3、零基础学AI模型之SpringAI 零基础学AI 模型之AI模型常见概念 一、先搞懂:什么是AI模型? ; 嵌入模型:负责“文本向量化”,把文字变成计算机能理解的“数字向量”,是后续语义搜索、相似内容匹配的基础; 图像生成模型:实现“文本→图像”转换,比如输入“蓝色天空下的白色风车”,就能生成对应的图片; 提示词(Prompts) 提示词不是简单的“一句话提问”,而是引导模型输出符合预期的“语言输入基础”。

    43810编辑于 2025-12-22
  • 来自专栏DevOps

    AI模型:开源语言模型bloom学习

    作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源语言模型bloom及其问答系列模型bloomz。 一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的语言模型。 它是在Megatron-LM GPT2的基础上修改训练出来的,主要使用了解码器唯一结构,对词嵌入层的归一化,使用GeLU激活函数的线性偏差注意力位置编码等技术。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本,本文中出于让大家都能动手实践的考虑,选择最小号的bloom-1b1版本,其他模型请自行尝试。 (checkpoint) #下载模型 网速足够快的情况下等一会就下载好了,但通常情况下我们得ctrl+c打断代码运行,手动下载模型存放到对应位置,即.cache\huggingface\hub\models–bigscience–bloom

    90510编辑于 2024-03-29
  • 来自专栏IT派

    深度学习基础+网络模型

    ★ 机器学习基础 机器学习是基于数据训练计算机的一门艺术和科学。它是计算机科学和数学交叉的相对确定的领域,而深度学习只是它的一个很小的子领域。机器学习的概念和工具对于理解深度学习非常重要。 机器学习基础 ★★★ 可视化的主成分分析讲解 ★ 如何有效地用 t-SNE 算法 ★★ 大多数流行的机器学习算法都是在 Python 库 Scikit-learn 中实现的。 ★★ 神经网络基础 神经网络是强大的机器学习算法。它们构成了深度学习基础。 一个交互可视化的教程,介绍了神经网络的基础——显示简单的神经网络如何做线性回归 ★ 1. 主要的缺点是 Lua 的社区不像 Python 的那么。Torch 主要由 Facebook 和 Twitter 维护。 以下资源还包括自编码器与图形模型的有趣混合体,称为变分自编码器(variational autoencoders),不过其数学基础是下一节的内容。 6.

    1.4K80发布于 2018-03-28
  • 来自专栏《Cloud Studio》

    CloudStudio 公开课 —— 模型基础

    ,支持技术对话、 AI 内容生成,免登陆免费使用,实现 AI 助教、助学可标准化轻量集成至校方已有教学平台CloudStudio 公开课Cloud Studio 正在逐步推出优质课程,今天向大家分享《模型基础 》,这套教程适合从理论研究者到工程实践者的实战学习。 第1章:语言模型基础1.1 基于统计方法的语言模型1.2 基于RNN的语言模型1.3 基于Transformer的语言模型1.4 语言模型的采样方法1.5 语言模型的评测第2章:语言模型2.1 大数据 +模型→新智能2.2 语言模型架构概览2.3 基于Encoder-only架构的语言模型2.4 基于Encoder-Decoder架构的语言模型2.5 基于Decoder-only架构的语言模型 ——【学习中心】——【模型基础】课程第二步点击章节进入学习第三步在【教案区域】观看教学内容第四步点击【下一节】查看代码示例加入 Cloud Studio 自媒体特权计划我们推出针对为 Cloud Studio

    44710编辑于 2025-03-11
领券