Skip to content

Latest commit

 

History

History
25 lines (25 loc) · 1.96 KB

Conditional Prompt Learning for Vision-Language Models.md

File metadata and controls

25 lines (25 loc) · 1.96 KB

CoCoOp:Conditional Prompt Learning for Vision-Language Models

  • CoOp的一个关键问题:学习到的context不能泛化到unseen的类别,对base class产生了过拟合。因此提出了CoCoOp,为每一个image 产生input-conditional的向量,这种动态的prompt可以适应每一个instance,因此对class shift不那么敏感。 image

方法

image image image

  • 新增一个meata-net,由Linear-ReLU-Linear组成,对每个image feature进行学习。

实验

  • 用 ViT-B/16,context length = 4 ,pre-trained word embeddings = “a photo of a”

从基类泛化到新类的实验

image

  • 虽然在base类CoOp很好,但是新类上较差,调和平均后与CLIP相当。但CoCoOp新类上表现较好。
  • CoCoOp缩小了泛化gap。证明instance-conditional prompt更具有泛化性。 image
  • CoCoOp在泛化性能上的增益超过了在基类准确度上的损失

跨数据集迁移

image

  • 比CoOp好。

域泛化

image

  • 证明instance-conditional prompt更具有泛化性。

深入分析

  • 用手工prompt初始化更好。
  • 因为CoCoOp增加了参数,所以用更大的CoOp做了对比试验。