前馈神经网络:Transformer 模型的核心设计(三)

计算机世界需要用数学语言来描述和拟合现实世界的规律。某种程度上,这些规律本身就像是一个待我们去发现的复杂函数。

如下图示,我们可以将 Transformer 看做是一个函数黑盒,它实现了”下一个词”的预测,就像是学会了人类的表达。

在 Transformer 内部,前馈神经网络是 Transformer 的重要组成部分。它也是一种强大的函数拟合工具。

通过构建非线性网络结构,它能够逼近现实世界中的复杂规律。
它就像是一个特征加工车间,通过两道工序处理信息:

  • “特征展开”,为了便于”观察”,将输入信息投射到一个更大的空间,并通过ReLU激活函数突出重要特征,就像在显微镜下观察时调整焦距,让细节更加清晰;
  • “特征提炼”,将重要信息提取出来,形成最终的特征表示。这种设计让FFN能够学习到更丰富的特征转换关系。

“提炼”出来的特征,使得模型能够精准地理解输入信息,并应用于”下一个词”的预测。

前馈神经网络的数学表达

以Transformer中的FFN为例,它可以表示为:

其中:

  • x 是输入向量
  • W1 是第一个线性变换的权重矩阵,将特征映射到高维空间
  • b1 是第一个变换的偏置向量
  • max(0, ·) 是ReLU激活函数,保留正值,将负值置零
  • W2 是第二个线性变换的权重矩阵,将特征映射回原始维度
  • b2 是第二个变换的偏置向量

从这个公式的结构可以清晰地识别出FFN的两个关键阶段:

  1. 扩展阶段:xW1 + b1

    • 这一步中,W1 通常是一个形状为 [dmodel, dff] 的矩阵,其中 dff 远大于 dmodel
    • 例如,在原始Transformer中,dmodel = 512,而 dff = 2048,是模型维度的4倍
    • 这种设计使得特征能够投射到更高维的空间,便于捕捉更复杂的特征关系
  2. 压缩阶段:(…)W2 + b2

    • 在ReLU激活函数处理后,W2 的形状为 [dff, dmodel],将特征空间压缩回原始维度
    • 这种压缩不是简单的降维,而是一种信息提炼,保留经过非线性变换后最有价值的信息
    • 可以理解为模型在”决定”哪些高维特征是解决当前任务最重要的

这种”扩展-压缩”的设计遵循了表征空间转换的原理:在更高维的空间中,原本难以区分的特征可能变得更容易分离,从而使模型能够学习到更复杂的模式。

从数学角度看,表征空间转换的核心操作之一是矩阵乘法,而矩阵乘法本质上就是对象在空间中的运动,将一个点投射到其他维度上。投射到高维时,为特征分离提供了可能,就像将纠缠在一起的线团展开到更大的空间中,使原本重叠的线条能够分开排列,从而更容易识别每条线的走向和特点(流形假设告诉我们,真实世界的高维数据往往分布在低维流形上,而合适的空间转换可以揭示这种结构);投射到低维时,是将这些特征进一步压缩和提取出来。

一个实际的矩阵计算是:

在实际应用中,会使用多个前馈神经网络堆叠,多尺度的进行特征提取。

参考链接

Understanding Transformer Architecture Using Simple Math
ResNet 残差神经网络
为什么transformer的FFN需要先升维再降维?
理解矩阵(二)

© 2025 YueGS