最近有点忙,公众号好久没更新了,有小伙伴问松哥是不是转行了,在这里和大伙澄清下,没转行,还在 IT 行业混着。
今年松哥在公司参与的项目主要是 AI 方向,所以后期公众号可能会和大家分享一些这方面的经验。
今天这篇文档断断续续码了好几个礼拜才码完,和大家简单聊一聊大模型中一些常见的概念。
我们常说人工智能,然而人工智能是一个非常广泛的领域,涵盖了多种技术和方法,包括但不限于机器学习、自然语言处理、计算机视觉、专家系统、机器人学等。
人工智能旨在创建能够模拟人类智能行为的系统或软件。它包括感知、推理、学习、决策和语言理解等多种能力,目标是让计算机能够像人类一样思考和行动。
在人工智能领域,有两个和人工智能紧密相关的概念,分别是机器学习和深度学习,这两个概念相信各位小伙伴也经常听别人说起。
我们可以这样简单理解三者之间的关系:
机器学习是人工智能的一个核心子领域,它专注于开发算法和模型,使计算机能够从数据中自动学习和改进。简单来说,机器学习的目标是让计算机通过数据“学会”某种规律或模式。
机器学习又分为多种不同的算法,如监督学习、无监督学习以及强化学习。
想象一下,你正在教一个小孩子学习如何识别苹果和香蕉。你会怎么做呢?
你可能会拿一些苹果和香蕉的图片,然后指着图片告诉孩子:“这是苹果,这是香蕉。”慢慢地,孩子就会学会,以后再看到类似的图片时,就能自己分辨出这是苹果还是香蕉。
监督学习就是类似的过程,只不过是在教计算机学习。
监督学习是一种让计算机通过“学习”来解决问题的方法。具体来说,就是给计算机很多已经“标注好答案”的例子,让它从中找出规律,然后用这些规律去解决新的问题。
比如想要判断一张图片是猫还是狗。那么我们需要给计算机很多猫和狗的图片,并且告诉它哪些是猫,哪些是狗。计算机学会了区分猫和狗的特征,以后再看到新的图片时,就能自己判断出是猫还是狗。
监督学习的两个关键点
想象一下,你给一个小孩子一堆玩具,但没有告诉他这些玩具的名字或者分类方式。孩子自己会去观察这些玩具,把它们分成几组,比如把所有的小汽车放在一起,把所有的洋娃娃放在一起,或者把所有红色的玩具放在一起。孩子是根据自己的观察和判断来分组的,而不是按照别人告诉他的规则。
无监督学习就是类似的,只不过是在让计算机自己去发现数据中的规律和结构。
无监督学习是一种让计算机自己探索数据的方法。和监督学习不同,无监督学习没有“正确答案”可以参考。计算机需要自己去观察数据,找出其中的模式、规律或者分组方式。
比如现在有一堆照片,但没有告诉计算机照片的内容。计算机自己观察这些照片,比如把所有风景照放在一起,把所有人物照放在一起。计算机自己发现了照片的分类方式,而不是别人告诉它的。
假设你是一家超市的老板,想了解顾客的购买习惯,但你没有预先设定的分类方式。你可以用无监督学习来分析顾客的购买数据:顾客的购买记录,比如买了什么商品、花了多少钱、购物的频率等。然后让计算机自己分析这些数据,发现一些规律,比如把顾客分成“经常购买生鲜的顾客”“喜欢买零食的顾客”“偶尔购物的顾客”等。在这个过程中是计算机自己发现了顾客的分群方式,而不是你事先告诉它的。
无监督学习的两个关键点
想象一下,你正在教一只小狗学会“坐下”这个动作。你会怎么做呢?每次小狗成功坐下时,你就会给它一块小零食作为奖励,如果它没有坐下,你可能就不会给奖励。慢慢地,小狗会发现,只要它坐下,就会得到奖励,于是它就会越来越频繁地坐下。
强化学习就是类似的过程,只不过是在教计算机或者机器人学习。
强化学习是一种让计算机或机器人通过“试错”来学习的方法。它就像一个正在探索世界的小孩子,通过不断地尝试,看看哪些行为会得到奖励,哪些行为会受到惩罚,然后根据这些反馈来调整自己的行为,最终学会如何做出最好的选择。 小狗学会了“坐下”。
强化学习的三个关键要素
强化学习的特点
机器学习常见算法是这些,在这些算法里边,一般是从监督学习开始。。
深度学习是一种让计算机通过“多层思考”来学习和解决问题的方法。它模仿了人脑的工作方式,就像大脑中有许多神经元一层一层地处理信息一样,深度学习也通过多层的“神经网络”来处理数据,从而发现数据中的复杂规律。
想象一下,你有一堆水果,包括苹果、香蕉和橙子。你希望让计算机学会区分这些水果。传统的方法可能需要你手动告诉计算机很多规则,比如“苹果是红色的”“香蕉是长条形的”“橙子是圆形的”。但深度学习不需要这样,它就像一个聪明的学生,自己通过观察和学习来发现水果的特征。
在深度学习中,你只需要给计算机这些照片,并告诉它每张照片对应的水果名称(比如“这是苹果”“这是香蕉”)。然后,计算机自己会通过多层的“思考”来学习如何区分这些水果。
多层思考
深度学习的核心是“神经网络”,它就像一个有很多层的筛子,每一层都在处理数据的一部分,逐步提取更复杂的特征。
深度学习的神奇之处在于,你不需要手动告诉计算机每一条规则,它会自己从数据中学习。比如,它可能会发现“苹果通常是红色或绿色的,表面光滑”“香蕉是黄色的,形状细长”“橙子是橙色的,表面有点凹凸”。
深度学习的特点
这就是在人工智能领域我们常见的一些概念和术语,以及这些这些概念之间的一些关系。
简单来说:
生成式人工智能(Generative Artificial Intelligence)可以理解为一种“会创作的AI”。它通过学习大量数据(如文字、图片、音频等),掌握这些数据的规律,然后像人类艺术家一样创造出全新的内容。例如:
它的核心能力是模仿+创新——既不是完全复制已有内容,也不是随机乱造,而是基于学习到的模式生成合理的新内容。
生成式AI是深度学习的“高级应用“。
总结下,深度学习是“学会观察世界”,生成式 AI 则是“用学到的知识创作新事物”。
整体上来说,大模型的训练可以分为三个阶段:
这三个阶段分别是啥意思呢,我们逐个来看。
预训练是大模型的基础学习阶段,通过“阅读”海量文本(如书籍、网页)学习语言的通用规律,类似人类通过广泛阅读积累常识。
预训练的流程一般是这样:
预训练的模型具备基础能力,知识面广,但是缺乏深度,能回答一些简单的基础问题,但是知识推理能力不足。此时的大模型相当于只会成语接龙。比如此时你问他埃菲尔铁塔在哪里,它可能回答你故宫在哪里,而不会回答法国,因为还缺乏推理能力。
这个阶段就像我们从小所接受的基础教育,语文、数学、英语、物理、化学、地理、历史、生物等等都要学习,广泛涉猎。
监督微调是在预训练基础上,用标注数据教模型完成具体任务(如回答问题、写邮件)。
监督微调的流程一般是这样:
这个阶段就像是我们读大学,选择一个专业精修,大学毕业之后,我们就具备了某一个领域的专业能力。
基于人类反馈的强化学习是指通过人类对答案的评分,让模型学会生成更符合人类偏好的回答(如更安全、更礼貌)。
RLHF 的流程一般是这样:
这个就像是我们工作之后,搬砖的过程中,可能受到领导的表扬,也可能受到领导的批评,这些就是反馈,在这个过程中我们学会总结经验,知道了如何让自己的工作更出色,得到更多表扬。
总结一下,这三个阶段的关系就是这样的:

最后再举个简单的例子,比如我们想利用大模型训练一个客服,那么我们的流程可能是这样:
通过这三个阶段,大模型从“书呆子”成长为“专业助手”,既能理解需求,又能用人类喜欢的方式回应。
参数规模庞大
大模型通常包含数十亿至数万亿参数(如GPT-4参数达1.8万亿),远超传统模型。这种规模使其具备强大的表征能力,能够捕捉语言、图像等数据中的复杂模式。例如,GPT-3通过 1750 亿参数实现对自然语言的深度理解。
海量数据训练
训练数据量通常达 TB 甚至 PB 级别,涵盖多语言文本、图像、音频等多模态信息。例如,GPT-3 使用 45TB 原始数据(清洗后 570 GB),通过自监督学习从海量数据中提炼通用知识。
高算力需求
训练需数百至上千 GPU 集群,耗时数周至数月。以 GPT-3 为例,需 3640 PFLOP·天的算力,相当于 512 张 A100 GPU 连续运行 1 个月。
涌现能力
当模型规模突破临界值(如千亿参数)时,会突然展现小模型不具备的复杂能力,例如逻辑推理、跨领域知识融合。例如,DeepSeek 模型在参数规模扩展后,意外展现出对数学难题的求解能力。
多任务泛化
单一模型可同时处理翻译、摘要、问答等任务,无需针对每项任务单独设计架构。例如,Gemini 模型能同时处理文本、图像、音频输入并生成代码。
大语言模型是专注于文本模态的深度学习系统,通过海量文本数据预训练掌握语言规律,具备文本生成、理解、推理三大核心能力。典型代表包括 GPT 系列、DeepSeek R1、文心一言等。
大语言模型常见的应用场景如下:
由于模态单一,LLM 仅处理文本数据,无法直接理解图像、音频等信息;同时,因为 LLM 依赖训练数据时效,所以通常需结合 RAG(检索增强生成)更新知识。
多模态模型是能同时处理文本、图像、音频、视频等多种数据模态的 AI 系统,通过跨模态对齐实现信息融合与协同推理。代表模型包括 GPT-4V、Gemini、Qwen-VL 等。
LMM 一些常见的应用场景如下:
总结下,LLM 和 LMM 对比如下:

这块我们简单看下大模型分词化和文本生成过程。
分词化是将原始文本拆解为模型可处理的最小语义单元(Token)的过程,其核心作用包括:

中文分词就像给句子"拆积木",让电脑看懂汉字组合。常见的方法有这几种:
最后不管怎么拆,系统都会把每个词换成数字编码(就像快递单号),电脑拿着这些号码就能处理文本了。不过要注意,不同分词工具就像不同的厨师,切出来的词块可能不太一样,没有绝对正确的切法,主要看用在哪里。反正核心目标就是帮电脑理解我们说的话!

你可以把大语言模型想象成一个玩文字接龙的AI老司机,它的操作流程是这样的:
举个栗子🌰:


老司机的接龙秘籍:
为什么说它像老司机?
说白了:整个过程就像 AI 在玩超级加长版文字接龙,一边接词一边改稿,直到凑出一篇人模人样的推荐文案,这就是所谓的自回归。
好啦,先说这些吧,后面有空了我们继续聊。