One Hot

在和计算机打交道的过程中，我们始终面临一个最根本的挑战：机器的世界是数值的，而我们的世界充满了各种离散的、分门别类的符号，比如词语、商品ID、类别标签等等。要让机器能够“理解”和处理这些符号，我们必须首先为它们找到一个合适的数值化身。

面对这个问题，最直观、最朴素的想法是什么呢？那就是“独热编码”（One-Hot Encoding）。

一、独热编码：简单之下的“绝对公平”

独热编码的思路，可以说简单到了极致。假设我们有 $N$ 个不同的项目（比如 $N$ 个不同的词语），我们就创造一个 $N$ 维的向量空间。在这个空间里，我们为每个项目分配一个专属的“坐标轴”。

具体操作上分两步：

编号：我们先给这 $N$ 个项目各自指定一个从 0 到 $N - 1$ 的唯一整数索引。
向量化：对于第 $i$ 个项目，我们就创建一个长度为 $N$ 的全零向量，然后只将第 $i$ 个位置上的元素置为 1。

举个例子，假设我们的词典里只有三个词：{“猫”, “狗”, “鱼”}。那么它们的独热编码表示就是：

猫: [1, 0, 0]
狗: [0, 1, 0]
鱼: [0, 0, 1]

这种表示方法的优点是显而易见的：简单、清晰、无歧义。每一个项目都对应着一个独一无二的向量。从几何角度看，这些向量在 $N$ 维空间中是两两正交的。这意味着，从编码的层面看，模型对所有项目一视同仁，没有任何偏见。它们之间是“绝对公平”的，谁也不比谁特殊。

在某些场景，比如在多分类任务的输出层，我们需要用概率分布来表示最终结果时，这种独一无二的表示方式非常有效。

二、简单背后的沉重代价

然而，这份看似完美的简单背后，我们付出的代价是巨大的，尤其是在处理像自然语言这样的大规模类别数据时，其弊端会迅速暴露出来，甚至让人感到“心智负担”沉重。

首先，是无可避免的“维度灾难”。

独热编码的向量维度，等于我们拥有的项目总数 $N$ 。在自然语言处理任务中，一个词典的大小动辄几万、几十万。这意味着，每一个词都将被表示成一个几十万维的向量。绝大部分成分都是 0，只有一个 1，这种极度的稀疏性带来了两个直接问题：一是巨大的存储开销，保存这样的一个独热矩阵会非常低效；二是在计算上，让如此高维的稀疏向量参与运算，也是一种挑战。一个 99.998% 的成分都是 0 的向量，其信息密度之低，可以说是一种巨大的浪费。

其次，也是更致命的，是没有任何语义。

刚刚我们提到，所有独热向量在数学上都是两两正交的。这意味着任意两个不同词的向量内积都为 0。这在数学上等价于宣告：所有词语之间的关系都是等价的、毫无关联的。

这个结论显然与我们的认知相悖。“猫”和“狗”在语义上的相似度，理应远大于“猫”和“星球”。但在独热编码的世界里，[1, 0, 0] 和 [0, 1, 0] 之间的距离，与 [1, 0, 0] 和 [0, 0, 1] 之间的距离，是完全一样的。模型无法从这种编码中获得任何关于词语相似度的先验知识。这等于是在模型的输入端就人为地挖下了一条巨大的语义鸿沟，让模型从零开始去学习词与词之间所有的关系，这无疑大大增加了学习的难度。

三、小结：一个重要的起点

总的来看，独热编码是一种极其基础的类别特征数值化方法。它的优点在于简单和无偏，但在需要处理大规模类别特征，尤其是需要捕捉特征之间内在联系的场景（如NLP）下，其维度灾难和无法表达相似性的缺点就成了致命伤。

因此，尽管独热编码在某些场景下（比如作为分类任务的最终输出标签）依然有用，但在作为输入的特征表示时，尤其是在 NLP 领域，它往往只是我们思考的起点。

ChengYongru'ML

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11