Welcome to Brain-Conn.Tech

研究报告:《Do Transformers Need Three Projections? Systematic Study of QKV Variants》

1. 作者及机构

本文作者为Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis。三位作者均隶属于位于美国加利福尼亚州拉古纳山的BrainChip公司。

2. 这项工作如何融入更广泛的研究领域

Transformer 架构已成为从自然语言处理到计算机视觉等各种人工智能任务的基础架构。然而,其广泛应用同时也凸显了其效率方面的重大挑战,特别是其自注意力机制的二次计算和内存开销,随着上下文窗口的增大和对实时推理需求的增加,这些开销会变得更加突出。

现有的研究领域已通过多种方法解决了这些效率问题。这些方法包括开发线性复杂度的注意力模型(例如 Performer、Linformer)、新型注意力机制(例如环形注意力机制和分块方法),以及在推理过程中减少键值(KV)缓存大小的技术(例如分组查询注意力机制 (GQA) 和多查询注意力机制 (MQA))。虽然这些创新有助于缓解自注意力机制的二次方瓶颈,但一个基本的结构性问题仍未得到充分探讨:三方(查询、键、值)投影的必要性。与其他神经网络架构(例如卷积神经网络 (CNN) 或状态空间模型 (SSM))通常使用更统一的内部表示不同,标准的 Transformer 模型维护着三个不同的投影矩阵,分别用于查询、键和值。

本文旨在对现有的效率提升方案进行补充。作者并非完全替换自注意力机制或仅仅关注头部共享策略,而是研究能否在不牺牲注意力机制核心功能和性能的前提下,统一或共享三个投影矩阵。这构成了对注意力机制内部权重绑定的系统性探索,旨在减少固有冗余,并充分利用参数数量、计算开销以及至关重要的推理内存占用方面的潜在优势。本文着重探讨了这种投影共享方式如何与现有的头部共享技术相互作用并加以结合,从而揭示了Transformer效率提升中一个尚未充分探索的维度。

3. 主要目标和动机

本研究的主要目标是系统地评估Transformer模型中三种不同的查询(Q)、键(K)和值(V)投影的必要性,并量化共享或统一这些投影的影响。这项研究的驱动力主要来自以下几个方面:

首先,一个重要的动机源于这样的观察:尽管存在许多提高Transformer效率的方法,但三个独立的QKV投影的基本结构却鲜少受到质疑。作者试图确定这种架构冗余是否可以减少,从而构建更简洁高效的模型。这涉及到评估此类简化是否能在对下游任务性能影响最小的情况下,降低参数数量和计算开销。

其次,一个重要的实际动机是解决日益严重的推理内存瓶颈问题,特别是键值(KV)缓存的大小,这在大型语言模型(LLM)的自回归生成过程中尤为显著。随着上下文窗口的扩展以及对LLM设备端或边缘部署需求的增加,KV缓存消耗的内存成为影响服务成本和吞吐量的主要因素。本研究旨在开发和评估能够直接减少KV缓存占用空间的投影共享策略,从而实现:

第三,本研究的动机在于,将投影共享与现有的头部共享机制(例如分组查询注意力 (GQA) 和多查询注意力 (MQA))相结合,有望实现协同效应。这些头部共享技术通过跨层共享头部来减少键值缓存,而投影共享则直接针对投影矩阵本身。作者旨在证明这两种方法是正交的,并且可以相乘地结合,从而在内存效率方面实现复合提升。

最后,研究人员试图更深入地理解查询、键和值各自的角色和表征空间。通过系统地约束这些投射,研究人员旨在深入了解哪些投射对于维持模型质量更为关键,以及某些共享方案成功或失败的原因。例如,该研究旨在探究为何统一键和值可以保持模型质量,而统一查询和键却可能损害注意力方向性,尤其是在序列任务中。这涉及到将投射共享描述为注意力机制中权重绑定的一个具体实例。

4. 方法论和途径

本研究系统地探讨了自注意力机制中的投影共享约束,提出了三种主要变体及其增强形式。研究方法还包括计算和内存成本的比较分析、与头部共享技术相结合的探索,以及对实际部署的考量。

提出的投影共享注意力变体: 作者评估了三种主要变体,逐步减少学习到的投影矩阵的数量:

  1. Q=KV(统一查询和键;分离值): 在此变体中,查询 (Q) 投影矩阵与键 (K) 投影矩阵相同($Q=K$)。然后,注意力机制计算 $A = ext{Softmax}(alpha KK^T)V$。此公式生成一个对称的注意力矩阵($KK^T$)。

    • (Q=KV)+: 为了缓解序列任务中对称注意力的局限性,引入了二维位置编码。将固定的正弦位置编码 $P (位于 mathbb{R}^{n imes n imes m}$) 添加到注意力图 $A' = A + P$ 中,然后进行 $1 imes 1$ 卷积,将其映射回二维注意力矩阵。此举旨在引入不对称性和方向性偏差。(X)+ 变体专门应用于非因果场景(视觉、合成任务),在这些场景中,对称注意力是主要限制因素,因为因果语言建模已经通过掩蔽强制实现了不对称性。
  2. QK=V(独立查询;统一键值): 此处,键 (K) 和值 (V) 的投影矩阵被统一($V=K$),而查询 (Q) 保持独立。注意力机制计算为 $A = ext{Softmax}(alpha QK^T)K$。由于 Q 和 K 仍然独立,因此该变体保留了非对称注意力图。键值统一被视为一种权重绑定形式。

  3. Q=K=V(三个矩阵使用单一投影): 这是最彻底的简化,其中三个投影矩阵被统一起来($Q=K=V$)。注意力机制变为 $A = ext{Softmax}(alpha KK^T)K$。这结合了 Q=KV 的对称注意力机制和 K=V 的表征瓶颈。

    • (Q=K=V)+: 与(Q=KV)+类似,添加了 2D 位置编码,以解决对称注意力可能引起的问题。

将投影共享与头部共享相结合: 作者强调,他们的投影共享方法与现有的头部共享方法(例如分组查询注意力机制 (GQA) 和多查询注意力机制 (MQA))正交。GQA 和 MQA 通过多个查询头部共享较少数量的键值缓存来减小键值缓存的大小。该研究提出将这些策略结合起来:

计算和内存分析: 本文分析了每种变体的计算复杂度(具体而言,投影操作)和参数数量,并与标准 QKV Transformer 进行了比较(表 1)。

设计考虑因素:

实验设置: 评估涵盖三个领域中的一系列不同任务:

5. 主要发现和结果

该研究对合成、视觉和语言任务中的投影共享变体进行了系统评估,揭示了不同的性能特征和显著的效率提升。

综合任务:( 表 2)

视觉任务:( 表 3、图 2、附录 A.3.2、A.3.3)

自然语言处理任务(语言建模):( 表 4、5、6、7、8、9、10、11、14、15、16,图 8、9、10、11、12)

6. 重要性和潜在影响

本研究系统地将投影共享描述为Transformer注意力机制中权重绑定的一种形式,并展示了其显著优势,尤其是在推理效率方面。研究结果在多个维度上具有重要意义:

首先,QK=V 被确定 为一种高效且可扩展的投影共享策略, 这是一项主要贡献。该变体在模型质量影响相对较小(12 亿参数下困惑度下降 2.48%)的情况下,实现了 KV 缓存内存减少 50%。这代表了 Transformer 架构的实质性进步,为实践者在效率-质量帕累托前沿上提供了一个新的起点。

其次,该研究强调 推理内存优势 而非单纯的参数或浮点运算次数减少,这对于实际部署至关重要。在LLM中,KV缓存通常是自回归生成过程中的主要内存瓶颈。通过将该缓存减半,QK=V可以实现:

第三,投影共享与头部共享技术(GQA/MQA)的 互补性证明 ,为实现前所未有的效率水平开辟了道路。Q-GQA-8 和 Q-MQA 等组合方法分别实现了 88% 和 98.5% 的缓存缩减,且质量损失可控。这种协同效应对于 边缘部署和设备端 AI 尤为重要,它使得大型语言模型能够在资源受限的硬件(例如移动设备或物联网平台)上高效运行,而这在以前由于内存需求高而难以实现。

第四,该研究为查询、键和值投影的作用提供了 宝贵的架构见解 。实证研究表明,键和值可以有效地共享表征空间(高余弦相似度、相似的有效排名),这支持了 K=V 约束的有效性。相反,研究强调了查询在建立非对称注意力模式中的独特作用,解释了为什么将查询与键统一(Q=KV)会导致序列任务的性能下降。这种更深入的理解可以指导未来的架构设计,使其不再局限于简单的试错法。

最后,这些优势在参数数量从 3 亿到 12 亿范围内持续扩展,并且观察到更大的模型可能对投影约束更稳健,这表明投影共享的影响在更大的规模(例如,70 亿以上参数)下可能会更加显著。QK=V 时困惑度下降与下游任务性能之间的解耦进一步强化了其应用价值,表明可以在不损失实际模型能力的情况下实现内存节省。

总之,这项工作为注意力机制中模型复杂度与性能的权衡提供了一个实用且原则性的框架,并带来了直接、可量化的推理记忆优势。它使低阶模型能够在性能较低的硬件上运行,从而拓宽了人工智能的普及范围,并为降低人工智能计算的能耗提供了途径,有助于实现更可持续、更普及的人工智能部署。