Abstract

很多时候,我们会跟各种概率分布打交道,但多数时候,我们的讨论焦点都还停留在单个随机变量上。比如,我们用一个概率分布来描述抛一次硬币的结果,或者一个像素点的亮度。这固然是基础,但真实世界的问题往往要复杂得多,我们面对的通常不是一个孤立的变量,而是一大堆相互关联、盘根错节的变量。这时候,只盯着单个变量就显得有些捉襟见肘了。

从单变量到多变量

我们不妨先回顾一下单变量的场景。当我们说一个随机变量 服从某个概率分布 时,我们实际上是在描述 取不同值的可能性大小。但如果现在我们有两个随机变量 呢?比如, 代表“今天是否下雨”, 代表“我是否带伞”。这两个变量显然不是独立的,它们之间存在着某种联系。我想知道“今天下雨且我没带伞”的概率,或者“天没下雨但我带了伞”的概率,这时候单看 或者 都不够了。

我们需要的是一个能够同时描述 状态的函数,这个函数能告诉我们任何一个 组合出现的概率。这,就是联合概率分布的核心思想。它不再孤立地看问题,而是把多个变量放在一个统一的框架下,描述它们所有可能取值组合的概率规律。

一个离散的例子

为了把这个概念具体化,我们不妨从最简单的离散情况入手。还是用刚才下雨和带伞的例子:

  • 随机变量 :今天是否下雨。为了方便,我们用数值表示,取值为 {0: 没下雨, 1: 下雨}。
  • 随机变量 :我是否带伞。同样地,取值为 {0: 没带, 1: 带了}。

它们的联合概率分布 可以直观地用一张表格来表示,我根据生活经验随手写一个:

Y=0(没带伞)Y=1(带伞)
X=0(没下雨)0.40.1
X=1(下雨)0.20.3

这张表里的每一个数字,就是一个联合概率。例如:

  • :这个数字告诉我们,“没下雨但我带了伞”这件事发生的概率是 10%。这种情况或许是因为我看了天气预报,虽然预报不准,但我还是做了准备。
  • :这个则表示,“下雨了但我没带伞”的概率是 20%。这大概就是我忘了看天气预报,结果被淋成落汤鸡的悲惨场景。

通过这张小小的表格,两个变量之间的相互关系就被完整地刻画了出来。

推广到连续世界

离散的情况固然直观,但我们遇到的很多问题,其变量是在一个连续区间取值的。比如,在图像处理中,我常常关心一个像素和它相邻像素的灰度值。

  • 随机变量 :图像中某个像素的灰度值。
  • 随机变量 :它右边相邻像素的灰度值。

这两个变量 的取值都可以在 这个连续区间内。这时候,我们显然无法再用一张表格来描述它们的联合分布了。我们需要的是一个二维的概率密度函数(Probability Density Function, PDF),我们记作

这个函数的意义是,变量 的取值落在某个微小区域 内的概率近似为 。和单变量密度函数一样,它也需要满足一个归一化条件,即它在整个二维平面上的积分必须等于 1:

这个积分的计算过程往往不那么轻松,但它的物理意义很清晰:所有可能情况发生的概率之和必然为 1。

我们能用它做什么?

现在我们有了联合分布这个工具,不禁要问:它到底有什么用?对我来说,它的强大之处在于,一旦我们掌握了一个系统的联合分布,就等于掌握了这个系统的全部信息。从它出发,我们可以推导出许多极具价值的子信息。

  • 边缘分布 (Marginal Distribution):如果我只关心其中一个变量,比如我就想知道“今天下雨”的概率 是多少,该怎么办?我只需要把所有 的可能性都加起来就行了。具体来说,就是把表格中 这一行的所有值相加:。这种通过对联合分布中的部分变量求和(离散)或积分(连续)来得到单个变量分布的过程,就叫作“边缘化”(Marginalization)。用公式表达就是:

  • 条件分布:这是联合分布最有趣的应用之一。它回答了这样一个问题:“在已知一个变量的情况下,另一个变量的概率分布是怎样的?” 比如,我已经知道今天下雨了(),那么我带伞的概率 是多少?根据条件概率的定义,我们有:

    利用我们刚刚算出的边缘概率 ,我可以计算出:。这个结果非常符合直觉:如果已经知道下雨了,那么我带了伞的概率就从无条件的 40% (即 ) 提升到了 60%。

  • 变量独立性 (Independence):我们还可以用联合分布来判断变量之间是否存在关联。如果两个变量是相互独立的,那么它们的联合分布就等于它们各自边缘分布的乘积。也就是说,如果对于任意的 都有:

    那么 就是独立的。在我们的例子中,很明显 ,所以下雨和带伞这两个行为是相关的,这也完全符合我们的认知。

回到那个让人头疼的问题

让我们再回到图像的例子。一张看似简单的 32×32 灰度图,实际上包含了 个像素点。我们可以把每个像素的灰度值 (其中 从 1 到 1024) 都看作一个随机变量。

那么,这张图像的联合概率分布就是:

这是一个定义在 1024 维空间上的概率密度函数!一想到要直接对如此高维的分布进行建模和计算,就让人觉得心智负担巨大,几乎是不可能完成的任务。然而,这个函数恰恰是图像生成模型的终极目标。一个好的生成模型,就是要去近似这个复杂的联合概率分布。

这个分布 蕴含了“自然图像”的全部奥秘。对于那些看起来像猫、像狗、像风景的像素组合,它的函数值会比较高;而对于那些看起来像随机噪声的像素组合,它的函数值则几乎为零。