重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (12): 182-188.

• 电气·电子 • 上一篇    下一篇

结合图像-文本提示与跨模态适配器的零样本多标签图像分类

宋铁成,黄 宇   

  1. 重庆邮电大学 通信与信息工程学院,重庆 400065
  • 出版日期:2025-01-23 发布日期:2025-01-23
  • 作者简介:宋铁成,男,博士,教授,主要从事图像处理、计算机视觉和遥感信息处理研究,Email:songtc@cqupt.edu.cn;通信作者 黄宇,男,硕士研究生,主要从事多标签图像分类和计算机视觉研究,Email:s220101053@stu.cqupt.edu.cn。

  • Online:2025-01-23 Published:2025-01-23

摘要: 最近的零样本多标签图像分类方法主要基于视觉语言预训练模型 CLIP(contrastivelanguageimagepretraining)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本 2种模态之间的交互。针对以上问题,提出一种结合图像文本提示和跨模态适配器(imagetextpromptsandcrossmodaladapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本 2种模态之间的联系。实验结果表明,在NUSWIDE、MSCOCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。

关键词: 视觉语言预训练模型;提示学习;零样本学习;多标签图像分类

中图分类号: 

  • TP391.41