人工智能通识课：深度学习 – 中国前沿资讯

分享至

用微信扫码二维码

分享至好友和朋友圈

深度学习（Deep Learning）是机器学习的重要分支，也是当前人工智能中最具代表性的技术路线之一。它以多层神经网络为核心，通过大量数据训练模型，使模型能够自动学习数据中的特征表示，并完成识别、预测、理解、生成和决策等复杂任务。

图 1：深度学习在人工智能体系中的位置

如果说传统机器学习常常依赖人工设计特征，那么深度学习更强调让模型从数据中自动学习特征。从图像中的边缘、纹理，到语音中的音素、语调，再到文本中的词义、语境，深度学习模型可以通过多层结构逐步形成从低级特征到高级语义的表示。

因此，深度学习不只是若干算法的集合，而是一套围绕数据表示、网络结构、参数学习、训练优化、计算框架和真实应用展开的完整技术体系。理解深度学习，需要同时把握三个问题：模型如何表示数据？模型如何通过训练学习？不同网络结构适合解决哪些任务？

一、深度学习的基本思想

深度学习的基本思想，可以概括为一句话：用多层神经网络从数据中自动学习有效表示。

在机器学习中，模型要完成预测或判断，首先需要把输入数据转换成可计算的特征。例如，图像可以表示为像素矩阵，语音可以表示为声学信号，文本可以表示为词、句子或向量。传统方法往往依赖人工经验提取特征，而深度学习则尝试把“特征提取”和“任务预测”统一到一个模型中完成。

以图像识别为例，深度神经网络的低层可能学习边缘、角点、颜色变化等简单特征；中间层可能学习纹理、局部形状；高层则可能学习眼睛、轮廓、车辆部件、动物身体结构等更抽象的语义特征。模型越往后，表示通常越接近任务需要的高级概念。

这也是“深度”二字的含义：它不只是指网络层数较多，更强调模型能够通过多层变换逐级抽象数据结构。

二、从神经元到神经网络

人工神经网络（Artificial Neural Network，ANN）是一类受生物神经系统启发而形成的计算模型。它并不是直接复制大脑，而是抽象出“神经元接收信号、加权整合、产生输出”的基本思想，并用数学方式模拟信息处理过程。

一个通常包括四个核心部分：

• 输入：来自外部数据或上一层神经元的信号，例如 x₁、x₂、x₃

• 权重：表示不同输入信号的重要程度，例如 w₁、w₂、w₃

• 偏置：调整整体输出位置，使模型表达更加灵活

• 激活函数：决定加权求和之后如何产生输出

其基本计算过程可以表示为：

其中，xᵢ 表示第 i 个输入特征，wᵢ 表示该输入对应的权重，b 表示偏置，z 表示加权和。神经元的最终输出通常由 σ(z) 决定。

在早期的 M-P 神经元模型中，神经元会将输入信号加权求和，并与阈值 θ 比较。当加权和达到或超过阈值时，神经元被激活；否则不被激活。这个模型直观地模拟了生物神经元“是否触发”的机制。

图 2：人工神经元与 M-P 模型示意图

不过，M-P 模型存在明显局限：权重和阈值通常需要人为指定。当任务变复杂、网络规模变大时，人很难预先设置合适参数。因此，神经网络真正走向实用，关键在于让模型能够通过数据自动学习参数。

三、感知器、多层感知器与非线性表达

感知器（Perceptron）是早期人工神经网络的重要模型。它在神经元加权求和的基础上引入了可学习的，使模型能够根据训练数据调整参数。

感知器的基本形式为：

然后通过阶跃函数或其他激活函数得到输出结果：

从几何角度看，单层感知器本质上是在特征空间中寻找一个线性分类边界。在二维平面中，这个边界是一条直线；在三维空间中，它是一个平面；在更高维空间中，它是一个超平面。

图 3：单层感知器与线性分类边界

例如，逻辑与运算可以由单层感知器完成。

只有当 x₁ = 1 且 x₂ = 1 时，输出才为 1；其他情况下输出为 0。这类问题在特征空间中可以被一条直线分开，因此属于线性可分问题。

但是，单层感知器无法处理所有问题。典型例子是异或（XOR）问题。

异或的输出规律是：两个输入不同则输出 1，两个输入相同则输出 0。它的正负样本在二维平面中无法被一条直线完全分开，因此单层感知器无法正确表示这种关系。

图 4：异或问题与多层感知器的表达能力

为了解决这类非线性问题，人们开始将多个感知器连接起来，形成多层感知器（Multilayer Perceptron，MLP）。

多层结构配合非线性激活函数，使神经网络能够表示更加复杂的函数关系。这正是现代深度神经网络的重要起点。

四、激活函数：引入非线性能力

（Activation Function）是神经网络中的关键组成部分。它的核心作用是为模型引入非线性。

如果一个神经网络只有线性变换，而没有非线性激活函数，那么无论堆叠多少层，整体上仍然可以等价为一个线性函数。这样一来，深层结构就失去了意义。深度神经网络之所以能够学习复杂模式，很大程度上依赖于激活函数带来的非线性表达能力。

图 5：常见激活函数对比

1、Sigmoid 函数

可以把任意实数映射到 0 到 1 之间，常用于二分类输出层，用来表示某个类别的概率。

它的输出范围清晰，适合表达概率含义。但在深层网络中，Sigmoid 容易出现梯度变小的问题，使前面层的参数更新变慢。

2、Tanh 函数

将输入映射到 -1 到 1 之间。相比 Sigmoid，Tanh 以 0 为中心，在某些情况下更利于优化。

3、ReLU 函数

（Rectified Linear Unit，线性整流单元）是深度学习中最常用的隐藏层激活函数之一。

当 z > 0 时，ReLU 直接输出 z；当 z ≤ 0 时，输出 0。它计算简单、求导方便，能够缓解深层网络中的问题，因此在卷积神经网络和多层前馈网络中被广泛使用。

不过，ReLU 也可能出现“神经元失活”现象：如果某些神经元长期输出 0，它们可能几乎不再参与学习。Leaky ReLU 等变体正是为缓解这一问题而提出的。

4、Softmax 函数

常用于多分类任务的输出层。它可以将多个输出值转换为一个概率分布，使所有类别概率之和为 1。

其中，zᵢ 表示第 i 个类别对应的输出值，Sᵢ 表示第 i 个类别的预测概率，∑ⱼ eᶻʲ 表示所有类别指数值之和。

比如，在手写数字识别中，输出层通常有 10 个神经元，分别对应数字 0 到 9。经过 Softmax 后，模型会给出每个数字类别的概率，概率最大的类别就是预测结果。

五、前馈神经网络与深度神经网络

（Feedforward Neural Network，FNN）是最基本的神经网络结构之一。所谓“前馈”，是指信息从输入层开始，依次经过隐藏层，最后到达输出层，整体方向是从前向后流动的。

一个典型前馈神经网络通常包含三类层：

• 输入层：接收原始特征

• 隐藏层：对输入进行逐层变换和抽象

• 输出层：给出最终预测结果

图 6：前馈神经网络的基本结构

在相邻层之间，如果每个神经元都与下一层所有神经元连接，这种结构称为（Fully Connected Layer）或线性层（Linear Layer）。

例如，在手写数字识别任务中，可以将 28 × 28 的灰度图像展平成 784 维向量，再输入到若干全连接层中，最后输出 10 个类别的概率。

如果隐藏层较少，通常称为“浅层神经网络”；如果隐藏层很多，则称为“深度神经网络”（Deep Neural Network，DNN）。

深度神经网络能够通过多层结构学习更复杂、更抽象的特征表示，因此在图像、语音、文本、视频等复杂数据任务中具有突出优势。

不过，网络并不是越深越好。模型深度需要与数据规模、任务复杂度、计算资源、过拟合风险等因素相匹配。

过深的网络如果缺乏合适训练方法，可能带来梯度消失、训练困难和泛化能力下降等问题。（ResNet）等结构正是为解决深层网络训练困难而提出的重要方法。

六、深度神经网络如何学习

神经网络的学习过程，本质上是通过数据不断调整参数，使模型输出尽量接近真实结果。这个过程通常围绕“前向传播、损失计算、反向传播、参数更新”四个步骤展开。

图 7：神经网络训练闭环

1、前向传播

（Forward Propagation，FP）是指输入数据从输入层进入网络，经过一层层计算，最终得到预测结果的过程。

例如，图像分类模型接收一张图片，经过卷积层、激活函数、池化层、全连接层等处理，最后输出每个类别的预测概率。

2、损失计算

模型预测结果通常不会一开始就准确，因此需要用（Loss Function）衡量预测值与真实标签之间的差距。

回归任务中常用（Mean Squared Error，MSE）：

其中，n 表示样本数量，yᵢ 表示第 i 个样本的真实值，ŷᵢ 表示第 i 个样本的预测值。

分类任务中常用（Cross-Entropy Loss），用于衡量预测概率分布与真实类别之间的差异。对于单个样本，其基本形式可以表示为：

其中，C 表示类别数量，yᵢ 表示真实标签在第 i 个类别上的取值，ŷᵢ 表示模型预测该类别的概率。

损失函数越小，说明模型预测结果与真实结果越接近；损失函数越大，说明模型还需要继续调整参数。

3、反向传播

（Back Propagation，BP）是深度学习训练的核心算法之一。它利用，从输出层向前逐层计算损失函数对各个参数的。

梯度表示：当某个参数发生微小变化时，损失函数会如何变化。模型训练的目标是让损失变小，因此参数通常沿着梯度的反方向更新。

4、参数更新

（Optimizer）负责根据梯度更新网络参数。最基本的更新思想可以表示为：

其中，θ 表示模型参数，η 表示学习率，∇θL 表示损失函数 L 对参数 θ 的梯度。

（Learning Rate）控制每次更新的步长。

学习率过大，可能导致训练不稳定甚至发散；学习率过小，则可能导致训练速度过慢。

在实际训练中，常见优化方法包括：

• 批量梯度下降：每次使用全部样本计算梯度，稳定但计算开销大

• 随机梯度下降：每次使用一个样本更新参数，速度快但波动大

• 小批量梯度下降：每次使用一小批样本更新参数，是深度学习中最常见的方式

• Adam：结合动量和自适应学习率机制，是当前应用较广泛的优化器之一

深度学习训练就是在这个闭环中不断迭代：模型先预测，再计算误差，再根据误差调整参数，直到模型逐渐学到数据中的有效规律。

七、深度学习框架与 PyTorch

现代深度学习模型通常包含大量参数，训练过程涉及矩阵运算、自动求导、GPU 加速、模型保存与部署等复杂工作。如果完全手写这些底层过程，不仅效率低，而且容易出错。因此，深度学习框架成为深度学习工程实践的基础工具。

常见深度学习框架包括 TensorFlow、PyTorch、PaddlePaddle、MindSpore 等。其中，PyTorch 由于编程风格直观、动态图机制灵活、生态活跃，在教学、研究和快速原型开发中被广泛使用。

图 8：PyTorch 深度学习工作流

1、Tensor：深度学习中的基本数据结构

在 PyTorch 中，张量（Tensor）是最核心的数据结构。它可以表示标量、向量、矩阵以及更高维数组。

例如：

• 一个数值可以看作 0 维张量

• 一组数值可以看作 1 维张量

• 表格数据或灰度图像可以看作 2 维张量

• 彩色图像可以看作 3 维张量

• 视频数据还可以扩展为 4 维或更高维张量

Tensor 与 NumPy 数组类似，但它还支持 GPU 加速和自动求导，因此更适合深度学习训练。

2、自动微分：让梯度计算自动完成

深度学习训练离不开求导。PyTorch 的机制可以自动跟踪计算过程，并在调用 backward() 时计算梯度。

只要某个 Tensor 设置了 requires_grad=True，相关运算就会被记录下来，反向传播后梯度会保存到 .grad 属性中。

这意味着开发者不需要手工推导每个参数的偏导数，而可以把更多精力放在模型结构、数据处理和实验设计上。

3、神经网络训练的一般步骤

使用 PyTorch 训练神经网络，一般包括以下步骤：

（1）准备数据，并转换为 Tensor；

（2）定义模型结构，通常继承 nn.Module；

（3）选择损失函数，例如 MSELoss 或 CrossEntropyLoss；

（4）选择优化器，例如 SGD 或 Adam；

（5）执行训练循环：前向传播、计算损失、梯度清零、反向传播、参数更新；

（6）在验证集或测试集上评估模型；

（7）保存模型参数或完整模型。

这个流程体现了深度学习工程实践的基本闭环：数据进入模型，损失指导学习，优化器更新参数，评估检验效果。

八、典型深度网络结构

深度学习并不是只有一种网络结构。不同任务的数据特点不同，适合的网络结构也不同。典型深度网络可以从三个方向理解：空间特征提取、序列建模和生成建模。

图 9：典型深度网络结构对比

1、卷积神经网络：面向图像与空间结构

（Convolutional Neural Network，CNN）主要用于处理具有空间结构的数据，尤其是图像。

图像不是普通的一维特征表，而是具有局部结构的二维或三维数据。相邻像素之间存在空间关系，局部区域中可能包含边缘、纹理、形状等视觉信息。

CNN 的核心思想是：通过在局部区域上滑动，逐步提取局部特征，再将局部特征组合成更高级的整体表示。

图 10：CNN 的卷积、池化与分类流程

CNN 通常包含以下结构：

• ：通过卷积核提取局部特征

• ：引入非线性，常用 ReLU

• ：降低特征图尺寸，减少计算量并增强局部稳定性

• ：整合高层特征并输出分类或预测结果

CNN 广泛应用于图像分类、目标检测、人脸识别、医学影像分析、自动驾驶、视频分析、工业检测和 OCR 文字识别等场景。

2、循环神经网络：面向序列与时间依赖

（Recurrent Neural Network，RNN）主要用于处理序列数据，例如文本、语音、时间序列、传感器数据等。

序列数据的特点是：当前信息往往与前面的信息有关。

例如，在一句话中，一个词的含义可能依赖前文；在语音识别中，当前声音片段也与前后声音有关；在天气预测、设备故障预测等任务中，当前状态通常与历史状态存在联系。

RNN 的核心思想是引入隐藏状态（Hidden State），让模型在处理当前输入时保留前面时间步的信息。

图 11：RNN 的序列建模过程

简单来说，RNN 在每个时间步都会接收当前输入 xₜ，同时结合上一个时间步的隐藏状态 hₜ₋₁，得到新的隐藏状态 hₜ。这样，模型就具备了一定的“记忆”能力。

不过，普通 RNN 在长序列中容易出现或问题，因此后来发展出（长短期记忆网络）、（门控循环单元）等改进结构。它们通过门控机制控制信息保留与遗忘，使模型能够更好地处理较长距离的依赖关系。

3、生成模型：从识别走向创造

传统深度学习模型多用于识别和预测，例如判断图像中是什么、预测用户是否点击、识别语音内容等。而生成模型（Generative Model）的目标是学习数据分布，并生成新的数据样本。

典型生成模型包括（Generative Adversarial Network，GAN）和（Diffusion Model）。

GAN 包含两个部分：

• 生成器：负责生成尽量逼真的样本

• 判别器：负责判断样本是真实数据还是生成数据

二者在对抗中共同提升：生成器努力骗过判别器，判别器努力识别真假样本。经过不断训练，生成器可以生成越来越逼真的图像、语音或其他数据。

图 12：从 GAN 到扩散模型

扩散模型则采用另一种思路：先逐步向真实数据中加入噪声，再学习如何从噪声中逐步还原数据。近年来，扩散模型在图像生成、图像编辑、视频生成等任务中表现突出。

生成模型的应用非常广泛，包括创意图像生成、图像修复、超分辨率重建、视频生成、语音合成、音乐生成、文本生成、代码生成、分子设计、工业设计、科学仿真和数据增强等。

九、深度学习的典型应用

深度学习的价值不仅体现在模型结构上，更体现在它能够解决大量真实问题。不同数据类型、不同任务目标和不同应用场景，往往会对应不同的网络结构与训练策略。

图 13：深度学习典型应用场景图谱

1、图像识别与人脸识别

在图像识别中，深度学习模型可以自动学习图像中的局部纹理、边缘、形状和高级语义特征。

人脸识别则进一步关注人脸区域检测、特征提取与身份匹配，常用于身份验证、门禁系统、安防检索等场景。

2、语音识别与语音合成

语音识别需要把连续声音信号转换为文字，涉及声学特征提取、序列建模和语言建模。

语音合成则反向生成自然语音，使机器能够以接近人类的方式表达文本内容。

3、推荐系统

推荐系统需要根据用户行为、物品特征、上下文信息预测用户偏好。

深度学习能够学习复杂的用户兴趣表示与物品表示，在短视频推荐、商品推荐、新闻推荐、音乐推荐等领域被广泛使用。

4、教育分析与学习预警

在教育场景中，深度学习可以分析学习行为数据、作业完成情况、测试成绩、平台访问记录等信息，用于学习状态评估、成绩预测、风险预警和个性化学习支持。

5、医学影像与辅助诊断

在医学领域，CNN 等模型可以用于 X 光、CT、MRI、病理图像等影像分析，辅助医生发现病灶、定位异常区域或进行风险评估。

由于医疗场景对安全性和可靠性要求极高，模型解释性、数据质量和临床验证尤为重要。

6、内容生成与智能创作

生成式模型使人工智能从“理解数据”进一步走向“生成数据”。它可以根据文字生成图像、根据提示生成文章、根据描述生成代码，也可以辅助音乐、视频、产品外观和科学实验数据的生成。

十、深度学习的能力边界与学习建议

深度学习非常强大，但并不是万能方法。它通常依赖较大规模的数据、较强的计算资源和较规范的训练流程。

如果数据质量较差、样本数量不足、标签存在偏差，模型可能学到错误规律。

若只追求模型复杂度而忽视任务目标，也容易造成过拟合、资源浪费或结果不可解释。

学习深度学习时，应重点把握以下主线。

第一，理解神经网络如何表示问题。

输入、权重、偏置、激活函数和层结构共同决定了模型的表达能力。

第二，理解神经网络如何通过数据学习。

前向传播、损失函数、反向传播和优化器构成了训练过程的核心闭环。

第三，理解不同网络结构适合不同数据。

CNN 更适合图像等空间结构数据，RNN 及其变体更适合序列数据，生成模型则适合内容生成和数据分布建模。

第四，理解框架是工具而不是目标。

PyTorch、TensorFlow 等框架能够提高开发效率，但真正重要的是理解模型结构、训练流程和任务需求之间的关系。

第五，理解深度学习系统需要工程化支撑。

真实项目不仅包括模型训练，还包括数据采集、预处理、评估、部署、监控、安全与伦理等环节。

小结

深度学习以多层神经网络为核心，通过数据驱动的方式自动学习特征表示。理解神经元、感知器、激活函数、前馈网络、反向传播和优化器，是学习深度学习的基础；进一步掌握 CNN、RNN、生成模型与深度学习框架，有助于理解深度学习在真实任务中的应用方式。

“点赞有美意，赞赏是鼓励”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

返回网易首页
下载网易新闻客户端

相关文章

“人工智能+火电”仍有四道难题要解

世界人工智能大会本周开幕，科创人工智能ETF银华（588930）等多只ETF盘中涨超1%

创业板人工智能ETF招商（159243）开盘跌0.07%

“让人工智能惠及每一个香港市民”

人工智能全球治理：参与、对话与引领

单词也能合成？近千万月流水新品效应下，国内厂商迅速跟进