目前,VL(Vision-Language)模型的设计理念有两种主要的思路:一种是将 视觉模型语言模型 融合成一个统一的模型(类似于 VLM,Vision-Language Models),另一种是采用 先训练计算机视觉(CV)模型,再加上语言模型(LLM) 的方法。

这两种思路各有其特点和优势,下面我会具体比较它们并给出当前趋势:

1. VLM(Vision-Language Models)思路

这种思路的核心是将视觉和语言的理解结合到一个统一的模型中。VLM 模型通常会通过一个共同的嵌入空间来连接图像和文本,以便它们能够互相理解并在一个模型中完成任务。

典型的模型:

优点:

缺点:

2. 先 CV 模型再 LLM 的思路

另一种方式是将 计算机视觉(CV)模型语言模型(LLM) 分开训练。首先,训练一个独立的计算机视觉模型(如图像分类、目标检测等),然后使用图像特征作为输入,输入到一个预训练的大规模语言模型中(如 GPT、BERT 等)。

典型的模型:

优点:

缺点:

当前趋势:

目前的趋势倾向于 VLM(Vision-Language Models) 的思路,尤其是在 多模态任务(如图像描述、视觉问答、图文检索等)中。VLM 模型通过将视觉和语言嵌入到同一个表示空间中,能够实现更加紧密的跨模态融合,能够在视觉和语言之间建立更加直接和有效的联系。

例如,像 CLIPFlamingoBLIP 等模型,它们通过联合训练视觉和语言模型,能够在图像和文本之间进行更复杂的推理和生成。这种方法不仅提升了跨模态理解的能力,而且也更好地适应了多模态推理的复杂任务。

在某些应用场景中,尤其是在需要大量语言推理的场景中,先 CV 模型再 LLM 的架构依然有优势,特别是在视觉信息已经非常精确的情况下,使用现有的强大语言模型(如 GPT-4)处理文本部分,能够显著提高效果。

总结:

总体来说,现在的趋势是 VLM 思路 更受欢迎,但具体的选择还是要根据任务的需求和计算资源来定。