Summary
主流的深度学习实践,其根基是建立在频率学派的思想之上的。然而,许多先进的技术和理论解释,都巧妙地融入了贝叶斯学派的观点,而一个专门的分支——贝叶斯深度学习,则完全是基于贝叶斯学派的。
深度学习的频率学派 “内核”
我们日常训练的绝大多数神经网络,从最简单的全连接网络到复杂的 Transformer,其核心优化过程都遵循着频率学派的范式。
频率学派的核心方法之一是最大似然估计(MLE),即寻找一组参数 来最大化观测数据的似然 。
在深度学习中,网络的权重 (weights) 和偏置 (biases) 就扮演着参数 的角色。我们的目标就是找到一组“最好”的权重。而我们通常的做法是最小化一个损失函数 (Loss Function)。
这二者其实是等价的。以一个最常见的分类任务为例:
- 模型输出:Softmax 函数输出每个类别的概率。
- 损失函数:交叉熵损失。 最小化交叉熵损失,在数学上完全等价于最大化对数似然函数。也就是说,我们通过梯度下降等优化算法,费尽心力去寻找的那组让损失最小的权重,正是频率学派意义下的最大似然估计值。
从这个角度看:
- 网络的权重 被视为一个未知但固定**的常量向量,这正是频率学派的观点。
- 训练过程 的目标是找到这个向量的唯一最佳点估计 (point estimate)。
- 我们不讨论“权重的概率分布”,只关心“哪组权重值最好”。
所以,从根本的优化目标来看,标准的深度学习是频率学派的。
融入深度学习的贝叶斯 “思想”
尽管核心是频率学派的,但很多我们习以为常的技术,用贝叶斯学派的观点来审视会获得更深刻的理解。
核心体现:正则化 = 最大后验估计 (MAP)
我们为了防止过拟合,经常在损失函数中加入正则化项,比如 L2正则化(权重衰减)。
这个简单的操作,从贝叶斯角度看,意义非凡。它等价于从最大似然估计 (MLE) 升级到了最大后验估计 (MAP)。
根据贝叶斯定理:
两边取对数并最大化:
最小化负对数后验,就等价于:
对比一下:
-
对应着我们原始的损失函数(如交叉熵)。
-
对应着正则化项。
-
L2正则化 相当于假设权重 的先验分布是一个均值为0的高斯分布 。它表达了我们的一个先验信念:我们相信“更简单”的模型,即权重值更小、更接近于0的模型是更好的。
-
L1 正则化 则相当于假设权重的先验分布是一个拉普拉斯分布,这个先验信念会鼓励权重变得稀疏(很多权重直接变为0)。
所以,当我们使用正则化时,其实已经不自觉地在模型中加入了关于参数的先验信念,这正是贝叶斯思想的体现。不过,它依然只给出了一个点的估计,所以可以看作是“半贝叶斯”或者说频率学派和贝叶斯学派的桥梁。
纯粹的贝叶斯深度学习
权重不是一个值,而是一个分布
在贝叶斯神经网络(Bayesian Neural Network, BNN)中,每一个权重和偏置都不再是一个单一的数值,而是一个概率分布。
- 训练过程:不再是寻找一个最佳的权重向量,而是通过数据去推断每个权重可能的概率分布(即后验分布 。这个过程通常非常复杂,无法精确计算,需要借助变分推断 (Variational Inference) 或 马尔可夫链蒙特卡洛 (MCMC) 等近似方法。
- 预测过程:当进行预测时,BNN 会从权重的后验分布中采样多组权重,用每一组权重进行一次前向传播,最终得到一个预测结果的分布,而不是一个单一的输出。
核心优势:不确定性量化 (Uncertainty Quantification),也可以理解为置信度
这是贝叶斯深度学习最吸引人的地方。由于预测结果是一个分布,我们可以从中知道模型对这个预测有多“自信”。这在很多高风险领域至关重要:
- 医疗诊断:模型不仅告诉你影像中有90%的可能是肿瘤,还能告诉你它对这个“90%”的判断有多大的不确定性。如果模型不确定,医生就需要介入复核。
- 自动驾驶:当感知模型对一个障碍物的识别不确定时,系统可以采取更保守的驾驶策略。
总结对比
| 特征 | 标准深度学习 (主要是频率学派) | 加入正则化的深度学习 (频率+贝叶斯思想) | 贝叶斯深度学习 (纯贝叶斯学派) |
|---|---|---|---|
| 权重 θ | 未知的固定值 | 未知的固定值 | 随机变量,服从一个概率分布 |
| 优化目标 | 最大似然估计 (MLE) | 最大后验估计 (MAP) | 计算权重的完整后验分布 |
| 训练结果 | 一组最佳权重 | 一组考虑了先验的最佳权重 | 每个权重都有一个概率分布 |
| 预测输出 | 一个确定的值 (Point Estimate) | 一个确定的值 | 一个预测的分布 |
| 不确定性 | 无法直接量化模型自身的不确定性 | 无法直接量化 | 核心优势,可以量化不确定性 |