联合概率分布

Abstract

很多时候，我们会跟各种概率分布打交道，但多数时候，我们的讨论焦点都还停留在单个随机变量上。比如，我们用一个概率分布来描述抛一次硬币的结果，或者一个像素点的亮度。这固然是基础，但真实世界的问题往往要复杂得多，我们面对的通常不是一个孤立的变量，而是一大堆相互关联、盘根错节的变量。这时候，只盯着单个变量就显得有些捉襟见肘了。

从单变量到多变量

我们不妨先回顾一下单变量的场景。当我们说一个随机变量 $X$ 服从某个概率分布 $P (X)$ 时，我们实际上是在描述 $X$ 取不同值的可能性大小。但如果现在我们有两个随机变量 $X$ 和 $Y$ 呢？比如， $X$ 代表“今天是否下雨”， $Y$ 代表“我是否带伞”。这两个变量显然不是独立的，它们之间存在着某种联系。我想知道“今天下雨且我没带伞”的概率，或者“天没下雨但我带了伞”的概率，这时候单看 $P (X)$ 或者 $P (Y)$ 都不够了。

我们需要的是一个能够同时描述 $X$ 和 $Y$ 状态的函数，这个函数能告诉我们任何一个 $(X, Y)$ 组合出现的概率。这，就是联合概率分布的核心思想。它不再孤立地看问题，而是把多个变量放在一个统一的框架下，描述它们所有可能取值组合的概率规律。

一个离散的例子

为了把这个概念具体化，我们不妨从最简单的离散情况入手。还是用刚才下雨和带伞的例子：

随机变量 $X$ ：今天是否下雨。为了方便，我们用数值表示，取值为 {0: 没下雨, 1: 下雨}。
随机变量 $Y$ ：我是否带伞。同样地，取值为 {0: 没带, 1: 带了}。

它们的联合概率分布 $P (X = x, Y = y)$ 可以直观地用一张表格来表示，我根据生活经验随手写一个：

	Y=0（没带伞）	Y=1（带伞）
X=0（没下雨）	0.4	0.1
X=1（下雨）	0.2	0.3

这张表里的每一个数字，就是一个联合概率。例如：

$P (X = 0, Y = 1) = 0.1$ ：这个数字告诉我们，“没下雨但我带了伞”这件事发生的概率是 10%。这种情况或许是因为我看了天气预报，虽然预报不准，但我还是做了准备。
$P (X = 1, Y = 0) = 0.2$ ：这个则表示，“下雨了但我没带伞”的概率是 20%。这大概就是我忘了看天气预报，结果被淋成落汤鸡的悲惨场景。

通过这张小小的表格，两个变量之间的相互关系就被完整地刻画了出来。

推广到连续世界

离散的情况固然直观，但我们遇到的很多问题，其变量是在一个连续区间取值的。比如，在图像处理中，我常常关心一个像素和它相邻像素的灰度值。

随机变量 $X$ ：图像中某个像素的灰度值。
随机变量 $Y$ ：它右边相邻像素的灰度值。

这两个变量 $X$ 和 $Y$ 的取值都可以在 $[0, 255]$ 这个连续区间内。这时候，我们显然无法再用一张表格来描述它们的联合分布了。我们需要的是一个二维的概率密度函数（Probability Density Function, PDF），我们记作 $p (x, y)$ 。

这个函数的意义是，变量 $(X, Y)$ 的取值落在某个微小区域 $(x, x + d x) \times (y, y + d y)$ 内的概率近似为 $p (x, y) d x d y$ 。和单变量密度函数一样，它也需要满足一个归一化条件，即它在整个二维平面上的积分必须等于 1：

\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} p (x, y) d x d y = 1

这个积分的计算过程往往不那么轻松，但它的物理意义很清晰：所有可能情况发生的概率之和必然为 1。

我们能用它做什么？

现在我们有了联合分布这个工具，不禁要问：它到底有什么用？对我来说，它的强大之处在于，一旦我们掌握了一个系统的联合分布，就等于掌握了这个系统的全部信息。从它出发，我们可以推导出许多极具价值的子信息。

边缘分布 (Marginal Distribution)：如果我只关心其中一个变量，比如我就想知道“今天下雨”的概率 $P (X = 1)$ 是多少，该怎么办？我只需要把所有 $Y$ 的可能性都加起来就行了。具体来说，就是把表格中 $X = 1$ 这一行的所有值相加： $P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) = 0.2 + 0.3 = 0.5$ 。这种通过对联合分布中的部分变量求和（离散）或积分（连续）来得到单个变量分布的过程，就叫作“边缘化”（Marginalization）。用公式表达就是：
$P (X) = y \sum P (X, y)$
条件分布：这是联合分布最有趣的应用之一。它回答了这样一个问题：“在已知一个变量的情况下，另一个变量的概率分布是怎样的？” 比如，我已经知道今天下雨了（ $X = 1$ ），那么我带伞的概率 $P (Y = 1∣ X = 1)$ 是多少？根据条件概率的定义，我们有：
$P (Y ∣ X) = \frac{P ( X , Y )}{P ( X )}$
利用我们刚刚算出的边缘概率 $P (X = 1) = 0.5$ ，我可以计算出： $P (Y = 1∣ X = 1) = P (X = 1, Y = 1) / P (X = 1) = 0.3/0.5 = 0.6$ 。这个结果非常符合直觉：如果已经知道下雨了，那么我带了伞的概率就从无条件的 40% (即 $P (Y = 1) = 0.1 + 0.3 = 0.4$ ) 提升到了 60%。
变量独立性 (Independence)：我们还可以用联合分布来判断变量之间是否存在关联。如果两个变量是相互独立的，那么它们的联合分布就等于它们各自边缘分布的乘积。也就是说，如果对于任意的 $x$ 和 $y$ 都有：
$P (X, Y) = P (X) \cdot P (Y)$
那么 $X$ 和 $Y$ 就是独立的。在我们的例子中，很明显 $P (X, Y) \neq = P (X) P (Y)$ ，所以下雨和带伞这两个行为是相关的，这也完全符合我们的认知。

回到那个让人头疼的问题

让我们再回到图像的例子。一张看似简单的 32×32 灰度图，实际上包含了 $32 \times 32 = 1024$ 个像素点。我们可以把每个像素的灰度值 $x_{i}$ (其中 $i$ 从 1 到 1024) 都看作一个随机变量。

那么，这张图像的联合概率分布就是：

p (x_{1}, x_{2}, ..., x_{1024})

这是一个定义在 1024 维空间上的概率密度函数！一想到要直接对如此高维的分布进行建模和计算，就让人觉得心智负担巨大，几乎是不可能完成的任务。然而，这个函数恰恰是图像生成模型的终极目标。一个好的生成模型，就是要去近似这个复杂的联合概率分布。

这个分布 $p (x_{1}, ..., x_{1024})$ 蕴含了“自然图像”的全部奥秘。对于那些看起来像猫、像狗、像风景的像素组合，它的函数值会比较高；而对于那些看起来像随机噪声的像素组合，它的函数值则几乎为零。

ChengYongru'ML

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

联合概率分布

从单变量到多变量

一个离散的例子

推广到连续世界

我们能用它做什么？

回到那个让人头疼的问题

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

关系图谱

目录

反向链接