
Hello,大家好,我是人月聊IT。
今天给大家推荐和导读《深度学习-基础与概念》这本书。首先还是看下下官方对这本书的一个简单说明和介绍。
一本好的教材兼备两大特质——体量恢弘、思想深邃。由世界公认的机器学习专家Christopher M.Bishop耗时16年精心打磨而成的《深度学习:基础与概念》,就是这样一本经典的深度学习入门书,随着大模型的发展,这本书与时俱进涵盖 Transformer、LLM、GAN、扩散模型等新技术新进展,更适合当下。
本书一经问世,就得到2024年诺贝尔物理学奖和2018年图灵奖得主Geoffrey Hinton、2018图灵奖得主Yann LeCun和2018图灵奖得主Yoshua Bengio这三位人工智能领域巨头联袂推荐,迅速攀升至亚马逊最畅销书籍排行榜的首位,Springer Nature 2024 年度最畅销著作的荣誉更是让它在学术出版界风头无两,被业界公认为 “深度学习领域迫切需要的现代教材”。
十几年前,Bishop大神的Pattern Recognition and Machine Learning(PRML)以贝叶斯视角揭示了机器学习算法的本质,被称为该领域的“圣经”。经典前作封神,新作再续传奇,如今,他推出姊妹篇《深度学习:基础与概念》,系统梳理了深度学习近20年来的理论基础与关键进展,重构深度学习理论根基。
这本书说实话,我现在看起来已经比较吃力,毕竟是年纪大了,很多底层的数学和概率统计知识,模型和算法遗忘的比较多。但是个人初步翻阅了这本书的目录章节结构后仍然是强烈推荐的一本书,整体内容相当系统,而且本身就是国外机器学习专家多年积累后出版的书籍,翻译者也是国内IT行业和AI领域的知名老师和专家。
如果对这本书感兴趣的,可以如下地址购买:
好了还是回来看,这本书适合谁阅读?
个人理解这本书更加适合高校本科高年级学生,研究生阅读。特别是涉及到算法,AI和人工智能,机器学习,包括做统计和数据分析专业的研究生阅读。同时也适合工作后从事AI和大模型算法研究,从事机器学习和人工智能领域工作的从业人员阅读。如果仅仅是从事上层AI Agent应用开发的人员个人理解阅读意义不大,核心的原因还是我前面谈到的这本书虽然叫深度学习基础概念,但是仍然是需要你有相关的数学,算法,概率统计,图论,线性代数等比较扎实的基础知识,可能你阅读起来才能够没有太大的障碍。
大家参考下这本书的目录就可以看到。
整个内容仍然需要你有比较扎实的数学,概率统计的知识功底。否则阅读起来仍然会很吃力。因此今天我准备沿着这本书的目录结构,对深度学习里面涉及到的更加基础的知识做一个简单的说明和理解,作为该书的一个导读的导读。
机器学习和深度学习
首先我们还是要搞清楚机器学习和深度学习的区别。机器学习包括了深度学习。可以把它们的关系想象成一个同心圆,机器学习是大圆,深度学习是里面的小圆。具体说明如下:
机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习和改进。机器学习算法通过分析数据、发现模式和规律来构建模型,然后利用这些模型对新的数据进行预测或决策。例如,垃圾邮件分类器是一个典型的机器学习应用。系统会分析大量已标记为垃圾邮件和非垃圾邮件的邮件数据,学习到垃圾邮件的特征(如特定的关键词、发件人信息等),然后根据这些特征对新的邮件进行分类。模型结构相对简单。常见的机器学习算法包括线性回归、决策树、支持向量机等。
而深度学习是机器学习的一个子集。它基于人工神经网络,特别是深度神经网络(具有多个层次的神经网络)。深度学习模型通过模拟人脑神经元的工作方式,对输入数据进行逐层的特征提取和抽象。例如,在图像识别中,深度学习模型可以自动从像素级的图像数据中提取边缘、形状等特征,进而识别出图像中的物体。因此深度学习的模型结构复杂,具有多层神经网络结构。神经网络由输入层、隐藏层和输出层组成,深度学习中的隐藏层通常有多个(深度由此而来)。例如,一个用于图像分类的卷积神经网络(CNN)可能有几十层甚至上百层。每一层都包含大量的神经元,神经元之间相互连接,能够对输入数据进行复杂的非线性变换。
从这个基础的概念可以看到,深度学习里面一个核心点就是神经网络和算法,当然神经网络本身也有一个发展演进过程如下:单层网络 → 多层网络 → 各种专门化架构(CNN、RNN等并行发展)→ 深度学习时代的复杂架构。
CNN的发展更多是为了解决特定问题(图像处理)而设计的架构创新,而不是神经网络深度增加的自然结果。抓住了这个脉络核心基本就抓住了这本书里面最核心的内容。
概率分布
接着聊下概率分布。对于分布一般来说我们习惯按变量类型进行分类,即离散变量和连续变量进行分类如下:
里面谈的比较多的是泊松分布和正态分布。要注意泊松分布是固定时间间隔或空间区域内,某事件随机发生的次数。最常见的就是我们说的到达或排队的场景,比如收费站1个小时平均达到100辆车,那么其1个小时到达10辆车的概率是多少?这就是典型的泊松分布。而对于正态分布则是描述自然现象或社会现象的连续变量分布,典型的就是我们对外在事物长度,大小,质量,成绩等的观察都适合正态分布。
有分布就有了最基本的方差和标准差。
方差(σ²):各数据点与均值差值的平方的平均值
方差 = E[(X - μ)²]
标准差(σ):方差的平方根
标准差 = √方差
为何对我们观察到的数据要计算方差和标准差?其核心原因就是我们希望观察数据点围绕均值的典型偏离距离。标准差越大,数据越分散;标准差越小,数据越集中。
而对于Sigma如果做过质量分析和控制就清楚,6Sigma质量控制战略,而对于3Sigma的水平就已经要求99.97%的数据都能够落在+-3sigma的区间内。大家看下生产质量控制中的控制图一般上下线即这个水平。
有了方差和标准差还没有完,在6Sigma里面还强调了数据采集的质量,也就是我们测量的数据是否信得过,我们观察到的数据是否本身就有明显的问题。如果数据本身有问题,那么你后面基于数据所有的计算和推理也全部有问题。所以如何检查测量的数据是否有问题?这里面就涉及到假设检验方法来处理,在这里不再展开。
贝叶斯定理
接着聊下贝叶斯定理。贝叶斯定理可以讲在深度学习领域和解决不确定性问题有相当重要的位置,给出了一种新的推理逻辑。因此传统的推理往往都是从原因推结果,而贝叶斯定理告诉你也可以从结果反推原因,只要提前知道两个先验概率。比如传统思维是如果患病,那么检测呈阳性的概率是多少?而贝叶斯思维是检测呈阳性,那么真正患病的概率是多少?
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。 那么对于上述公司的理解即是当我们知道B发生的时候A成立的概率的时候,是可以反推A发生的时候B成立的概率的,但是前提是还需要知道两个先验概率,即P(B)和P(A)。
看个例子如下:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
那计算的时候,我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058 即要知道P(B|A)首先要有两个独立的先验概率,即狗叫的概率和歹徒入侵的概率。
贝叶斯理论的应用场景很多,如在互联网领域中的语义和词法分析,知识聚类,互联网垃圾邮件的过滤等,都可以基于贝叶斯理论为基础,进行条件概率的反向推倒。
贝叶斯定理在深度学习中如此重要,是因为它提供了一个统一的框架来处理不确定性、整合先验知识、进行推理更新,这些都是现代AI系统必须面对的核心挑战。在早期的企业知识管理领域,知识智能化的实现则是基于贝叶斯定理和香农理论来完成的。
回归,最小二乘法和相关性分析
对于我们观测到的两组数据,究竟有无相关性?或者说我们如何来研究多组数据之间的是否相关?类似房价和房屋面积两组数据是否相关?身高和体重两组数据是否相关?
这些就涉及到回归和相关性分析。
最小二乘法、回归和相关性分析之间有着密切的内在联系,它们共同构成了统计分析的基础框架。最小二乘法是一种数学优化方法,核心思想是最小化观测值与预测值之间的平方误差之和。回归分析研究变量之间的依赖关系,目的是建立因变量与自变量之间的数学模型。
比如简单线性回归:y = a + bx
注意如果我们研究的两个变量之间经过相关性分析存在相关性,那么我们就可以建立相应的回归方程,而回归方程则是后面基于自变量来预测因变量的基础。而在深度学习中的推理本质也是一个预测的过程。
聚类分析
我们如何进行图像识别或者对某一句话的语义进行理解,这里面就涉及到一个重点即聚类分析。
聚类分析是一种无监督学习方法,它旨在将数据集中的数据对象划分成不同的组或簇,使得同一簇内的数据对象具有较高的相似性,而不同簇之间的数据对象具有较大的差异性。比如常见的聚类算法就包括了K-Means 聚类、层次聚类、DBSCAN 聚类等。相似性度量是聚类分析的基础,用于衡量数据对象之间的相似程度。常用的相似性度量方法有欧氏距离、曼哈顿距离、余弦相似度等。
在许多实际问题中,数据往往没有预先定义的类别标签,聚类分析能够在没有先验知识的情况下,自动发现数据中的潜在结构和模式,帮助人们理解数据的分布和特性。聚类分析在深度学习中的重要性在于它提供了一种无监督的方式来理解和组织复杂数据,这与深度学习追求自动特征学习的目标高度契合。它不仅是一种分析工具,更是连接无监督学习、半监督学习和监督学习的重要桥梁,为构建更智能、更高效的AI系统提供了基础支撑。
神经网络算法
最后回到神经网络算法。可以将神经网络算法基本就是深度学习最核心的内容。类似CNN卷积神经网络,图神经网络,对抗网络,Transformer都是基于神经网络算法的进一步延展。神经网络算法是深度学习的核心基础,它模拟人脑神经元的工作方式来处理信息。让我从基础原理开始,系统地介绍神经网络及其主要算法。
神经网络的基础原理:
单个神经元(感知机):
输入:x₁, x₂, ..., xₙ
权重:w₁, w₂, ..., wₙ
偏置:b
输出:y = f(∑(wᵢxᵢ) + b)
其中f是激活函数,决定神经元是否"激活"。
前向传播:信息从输入层通过隐藏层传递到输出层
反向传播:通过梯度下降算法调整权重,最小化损失函数
主流神经网络算法分类
这里我们摘录一个网上参考资料,对常见的深度学习里面主流神经网络算法的一个简单说明。这本深度学习的书基本对核心的神经网络算法都在书里面有详细的介绍。(图片来源于网络)
近年来,人工智能发展迅速,大语言模型的出现更是推动了人工智能向更高层次发展,而这一切的基础都源于神经网络和深度学习。
本书全面系统地介绍了神经网络和深度学习的相关知识,不盲目追逐可能很快会过时的热门架构,而是注重基础性和持久价值,重点关注那些经得起时间考验的方法。书中涵盖了 Transformer、LLM、GAN、扩散模型等热门架构,直击 ChatGPT 技术内核,为读者进一步学习、应用和研究人工智能提供了坚实的技术基础。
本书全面且深入地呈现了深度学习领域的知识体系,系统梳理了该领域的核心知识,阐述了深度学习的关键概念、基础理论及核心思想,剖析了当代深度学习架构与技术。
在网络模型方面,从单层网络逐步深入多层网络、深度神经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时涵盖卷积网络、Transformer等前沿架构及其在计算机视觉、自然语言处理等领域的独特作用。