什么是 Multi-Query Attention?

multi-query-attention

(image from medium.com/towards-data-science)

多查询注意力（Multi-Query Attention）是 Transformer 解码器的优化版本，通过共享键/值投影来显著降低内存消耗，特别适合自回归生成任务。

预计阅读时间: 3 分钟

在标准多头注意力基础上进行关键修改：所有注意力头共享同一组键（K）和值（V）的投影矩阵，仅保留查询（Q）的独立投影。公式如下：

\text{MultiQuery}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O

其中每个 $\text{head}_i$ 计算为：

\text{head}_i = \text{Attention}(QW_i^Q, KW^K, VW^V)

$W_i^Q \in \mathbb{R}^{d_{model}\times d_k}$ 保持独立，而 $W^K, W^V \in \mathbb{R}^{d_{model}\times d_k}$ 被所有头共享。

特性	Multi-Head (MHA)	Multi-Query (MQA)	Grouped-Query (GQA)
键值投影共享	无	所有头共享同一 K/V 投影	分组内共享 K/V 投影
参数量	$4hd_kd_{model}$	$(h + 2)d_kd_{model}$	$(h + 2g)d_kd_{model}$
解码显存占用	$2bd_{model}L$	$2bd_kL$	$2bgd_kL$
模型质量	最优	基线模型 90%-95%	接近 MHA (98%-99%)
典型应用场景	预训练	低内存推理场景	生产环境部署

Refs