从矩阵乘法到核函数：一次对Attention机制的回溯

在线性代数的学习中，我建立的第一个核心认知是：矩阵乘法等于线性变换的复合。

比如我们有两个矩阵 $A$ 和 $B$ ，以及一个向量 $x$ ，那么 $A B x$ 的含义是，先对 $x$ 进行 $B$ 变换，再对结果进行 $A$ 变换，即：

A B \cdot x = A (B x)

当我看到自注意力中的 QK^T 时，我的第一反应也是讲这个过程理解为线性变换。

问题的“症结”：Attention中的`QK^T`

让我们回顾一下自注意力的核心公式：

Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d}) \cdot V

如果按照“变换复合”的思路，QK^T似乎是想表达“先做一个 $K^{T}$ 变换，再做一个 $Q$ 变换”。但这个解释在维度上和语义上都讲不通。

假设 $Q$ 是 $n \times d_{k}$ 矩阵（ $n$ 个Query向量）， $K$ 也是 $m \times d_{k}$ 矩阵（ $m$ 个Key向量）。那么 $K^{T}$ 是 $d_{k} \times m$ 矩阵。QK^T 的结果是一个 $n \times m$ 的矩阵。

这 $n \times m$ 矩阵的物理意义是什么？它显然不是一个“变换”，而是 $n$ 个Query和 $m$ 个Key之间的两两相似度。

我们仔细看一下 $S = Q K^{T}$ 中第 $i$ 行第 $j$ 列的元素 $S_{ij}$ ：

S_{ij} = (Q K^{T})_{ij} = l = 1 \sum d_{k} Q_{i l} (K^{T})_{l j} = l = 1 \sum d_{k} Q_{i l} K_{j l} = q_{i} \cdot k_{j} = q_{i}^{T} k_{j}

这里的 $q_{i}$ 是 $Q$ 的第 $i$ 行， $k_{j}$ 是 $K$ 的第 $j$ 行。

QK^T 这个矩阵乘法，其目的根本就不是为了“复合变换”，而是用一种批量计算的方式，高效地算出每个 $q_{i}$ 向量与每个 $k_{j}$ 向量的点积（Dot Product），而这里的批量计算，是由硬件来保证的。

这个 $S$ 矩阵，实际上是“相似度矩阵”或“注意力得分矩阵”。

重新审视Attention：从线性核到非线性核

QK^T 的本质是在计算相似度，而它选择的相似度度量方式，正是点积, 而点积是一种线性核。

所以，原始的自注意力机制，本质上是在使用线性核来计算 $Q$ 和 $K$ 之间的相似度。

现在，我们可以把所有的线索串联起来了。

矩阵乘法：可以有两种语义。一种是“变换的复合”（如 $A (B x)$ ），另一种是“批量相似度计算”（如 $Q K^{T}$ ）。
自注意力：QK^T 采用了第二种语义，即批量计算相似度。
线性核：QK^T 所使用的相似度 $q^{T} k$ ，是核函数家族中的“线性核”。
核函数：是点积的非线性推广，允许我们在高维（隐式）空间中度量相似性。

那么，一个自然而然的推论是：

我们可以将自注意力中的线性核 $q_{i}^{T} k_{j}$ ，替换为任意的非线性核 $k (q_{i}, k_{j})$ 。

这就得到了核化注意力（Kernelized Attention）：

Attention (Q, K, V) = softmax (K (Q, K)) \cdot V

其中 $K (Q, K)$ 是一个 $n \times m$ 的矩阵，其元素 $(i, j)$ 为 $k (q_{i}, k_{j})$ 。

这个 $k$ 可以是更复杂的核，例如：

多项式核： $k (x, x^{'}) = (x^{T} x^{'} + c)^{d}$
高斯核/RBF核： $k (x, x^{'}) = exp (- \frac{∥ x - x ^{'} ∥ ^{2}}{2 σ ^{2}})$

事实上，近年来一些高效的Transformer变体（如 Performer、Linear Transformer）正是利用了核函数的特性。

ChengYongru'ML

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

从矩阵乘法到核函数：一次对Attention机制的回溯

从矩阵乘法到核函数：一次对Attention机制的回溯

问题的“症结”：Attention中的`QK^T`

重新审视Attention：从线性核到非线性核

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

关系图谱

目录

Recent Writing

Recent Notes

从矩阵乘法到核函数：一次对Attention机制的回溯

从矩阵乘法到核函数：一次对Attention机制的回溯

问题的“症结”：Attention中的QK^T

重新审视Attention：从线性核到非线性核

Recent Writing

Recent Notes

关系图谱

目录

问题的“症结”：Attention中的`QK^T`