Summary

主流的深度学习实践,其根基是建立在频率学派的思想之上的。然而,许多先进的技术和理论解释,都巧妙地融入了贝叶斯学派的观点,而一个专门的分支——贝叶斯深度学习,则完全是基于贝叶斯学派的。

深度学习的频率学派 “内核”

我们日常训练的绝大多数神经网络,从最简单的全连接网络到复杂的 Transformer,其核心优化过程都遵循着频率学派的范式。

频率学派的核心方法之一是最大似然估计(MLE),即寻找一组参数 来最大化观测数据的似然

在深度学习中,网络的权重 (weights) 和偏置 (biases) 就扮演着参数 的角色。我们的目标就是找到一组“最好”的权重。而我们通常的做法是最小化一个损失函数 (Loss Function)

这二者其实是等价的。以一个最常见的分类任务为例:

  • 模型输出:Softmax 函数输出每个类别的概率。
  • 损失函数:交叉熵损失。 最小化交叉熵损失,在数学上完全等价于最大化对数似然函数。也就是说,我们通过梯度下降等优化算法,费尽心力去寻找的那组让损失最小的权重,正是频率学派意义下的最大似然估计值。

从这个角度看:

  • 网络的权重 被视为一个未知但固定**的常量向量,这正是频率学派的观点。
  • 训练过程 的目标是找到这个向量的唯一最佳点估计 (point estimate)
  • 我们不讨论“权重的概率分布”,只关心“哪组权重值最好”。

所以,从根本的优化目标来看,标准的深度学习是频率学派的。


融入深度学习的贝叶斯 “思想”

尽管核心是频率学派的,但很多我们习以为常的技术,用贝叶斯学派的观点来审视会获得更深刻的理解。

核心体现:正则化 = 最大后验估计 (MAP)

我们为了防止过拟合,经常在损失函数中加入正则化项,比如 L2正则化(权重衰减)。

这个简单的操作,从贝叶斯角度看,意义非凡。它等价于从最大似然估计 (MLE) 升级到了最大后验估计 (MAP)

根据贝叶斯定理:

两边取对数并最大化:

最小化负对数后验,就等价于:

对比一下:

  • 对应着我们原始的损失函数(如交叉熵)。

  • 对应着正则化项

  • L2正则化 ​ 相当于假设权重 先验分布是一个均值为0的高斯分布 。它表达了我们的一个先验信念:我们相信“更简单”的模型,即权重值更小、更接近于0的模型是更好的。

  • L1 正则化 则相当于假设权重的先验分布是一个拉普拉斯分布,这个先验信念会鼓励权重变得稀疏(很多权重直接变为0)。

所以,当我们使用正则化时,其实已经不自觉地在模型中加入了关于参数的先验信念,这正是贝叶斯思想的体现。不过,它依然只给出了一个点的估计,所以可以看作是“半贝叶斯”或者说频率学派和贝叶斯学派的桥梁。

纯粹的贝叶斯深度学习

权重不是一个值,而是一个分布

在贝叶斯神经网络(Bayesian Neural Network, BNN)中,每一个权重和偏置都不再是一个单一的数值,而是一个概率分布

  • 训练过程:不再是寻找一个最佳的权重向量,而是通过数据去推断每个权重可能的概率分布(即后验分布 。这个过程通常非常复杂,无法精确计算,需要借助变分推断 (Variational Inference)马尔可夫链蒙特卡洛 (MCMC) 等近似方法。
  • 预测过程:当进行预测时,BNN 会从权重的后验分布中采样多组权重,用每一组权重进行一次前向传播,最终得到一个预测结果的分布,而不是一个单一的输出。

核心优势:不确定性量化 (Uncertainty Quantification),也可以理解为置信度

这是贝叶斯深度学习最吸引人的地方。由于预测结果是一个分布,我们可以从中知道模型对这个预测有多“自信”。这在很多高风险领域至关重要:

  • 医疗诊断:模型不仅告诉你影像中有90%的可能是肿瘤,还能告诉你它对这个“90%”的判断有多大的不确定性。如果模型不确定,医生就需要介入复核。
  • 自动驾驶:当感知模型对一个障碍物的识别不确定时,系统可以采取更保守的驾驶策略。

总结对比

特征标准深度学习 (主要是频率学派)加入正则化的深度学习 (频率+贝叶斯思想)贝叶斯深度学习 (纯贝叶斯学派)
权重 θ未知的固定值未知的固定值随机变量,服从一个概率分布
优化目标最大似然估计 (MLE)最大后验估计 (MAP)计算权重的完整后验分布
训练结果一组最佳权重一组考虑了先验的最佳权重每个权重都有一个概率分布
预测输出一个确定的值 (Point Estimate)一个确定的值一个预测的分布
不确定性无法直接量化模型自身的不确定性无法直接量化核心优势,可以量化不确定性