- CoOp的一个关键问题:学习到的context不能泛化到unseen的类别,对base class产生了过拟合。因此提出了CoCoOp,为每一个image 产生input-conditional的向量,这种动态的prompt可以适应每一个instance,因此对class shift不那么敏感。
- 新增一个meata-net,由Linear-ReLU-Linear组成,对每个image feature进行学习。
- 用 ViT-B/16,context length = 4 ,pre-trained word embeddings = “a photo of a”
- 虽然在base类CoOp很好,但是新类上较差,调和平均后与CLIP相当。但CoCoOp新类上表现较好。
- CoCoOp缩小了泛化gap。证明instance-conditional prompt更具有泛化性。
- CoCoOp在泛化性能上的增益超过了在基类准确度上的损失
- 比CoOp好。
- 证明instance-conditional prompt更具有泛化性。
- 用手工prompt初始化更好。
- 因为CoCoOp增加了参数,所以用更大的CoOp做了对比试验。