Qformer

传统的视觉-语言预训练（VLP）成本极高，因为需要端到端训练视觉和文本模型。BLIP-2 提出了一种通用且高效的预训练策略，利用现成的冻结预训练图像编码器和冻结大语言模型（LLM），只训练一个轻量级的"桥梁"模块来连接两者，即Qformer（Querying Transformer）。

Qformer是一个轻量级Transformer，作为冻结图像模型和冻结LLM之间的信息瓶颈：

Q-Former模块可以实例化为可学习的查询嵌入集合 $\mathbf{Q}\in\mathbb{R}^{m\times d}$ ，其中 $m$ 为查询数量， $d$ 为模型维度。每个Q-Former块由以下顺序层组成：

过程如下：

\begin{align*} \mathbf{Q}^1 &= \mathbf{Q}^0 + \mathrm{MSA}(\mathrm{LN}(\mathbf{Q}^0)) \\ \mathbf{Q}^2 &= \mathbf{Q}^1 + \mathrm{CrossAttn}(\mathrm{LN}(\mathbf{Q}^1),\mathbf{E}) \\ \mathbf{Z} &= \mathbf{Q}^2 + \mathrm{FFN}(\mathrm{LN}(\mathbf{Q}^2)) \end{align*}

Q-Former并非直接接入LLM，而是通过渐进式训练避免灾难性遗忘：

阶段一：表征学习（Bootstrapping Vision-Language Representation）

Q-Former在阶段一同时优化三个互补任务：

目标

全称

作用

关键细节

ITC

Image-Text Contrastive Learning

对齐视觉和文本表征

计算查询向量与文本[CLS] token的相似度，使用MoCo机制维护动量编码器

ITM

Image-Text Matching

细粒度对齐

二分类任务，查询向量通过Bi-Attention与文本交互，判断图文是否匹配

ITG

Image-Grounded Text Generation

生成能力

因果LM目标，查询向量作为视觉前缀，自回归生成文本（仅阶段二使用）

阶段二：生成学习（Bootstrapping Vision-to-Language Generative Learning）

Last updated 1 month ago