【源头活水】连接文本和图像的第一步：CLIP

人工智能前沿讲习 2022-05-20

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—凤舞九天

地址：https://zhuanlan.zhihu.com/p/427740816

论文链接

https://arxiv.org/pdf/2103.00020.pdf

github

https://github.com/openai/CLIP

最近CLIP比较火，身边人提到的也比较多，自己也开始尝试这篇论文，在这里做下记录。

数据

这里首先想说下数据，CLIP 能够成功，并且很难自己复现的一个重要原因就是CLIP用了大量的训练数据以及训练资源，真的可以说是大力出奇迹。CLIP用了400million的image-text pair对进行训练，对于image backbone，CLIP尝试了两种结构，DN50x64 和 vit-L，分别用了592 个 V100 + 18天的时间和 256 个 V100 + 12天的时间，一般人就直接劝退了。我们在用的时候也要先load其开源出来的已经训练好的模型才能work，自己无论是训练数据还是训练资源都不足以支撑clip的从头训练。

算法原理

CLIP的基本算法原理相对比较简单，为了对image和text建立联系，首先分别对image和text进行特征提取，image特征提取的backbone可以是resnet系列模型也可以是VIT系列模型，text特征提取目前一般采用bert模型，特征提取之后，由于做了normalize，直接相乘来计算余弦距离，同一pair对的结果趋近于1，不同pair对的结果趋近于0，因为就可以采用对比损失loss（info-nce-loss），熟悉这个loss的同学应该都清楚，这种计算loss方式效果与batch size有很大关系，一般需要比较大的batch size才能有效果。

模型示意图：

伪代码：

个人理解

感觉CLIP也是一种多模态pretrain 方式，并且能够为文本和图像在特征域进行对齐，无论是在跨模态检索，还是在多模态 pretrain 方面，都有其用武之地。

应用

图像分类：

利用clip进行图像分类有两种方式，一种是直接利用zero-shot 方式进行预测，如下图所示，将text假设为 a photo of [object], 分别对image 和 text进行特征提取以及余弦距离，当object为目标类别时，相似度最高，即为预测结果，通过实验惊奇的发现，直接利用zero-shot 的方式进行预测能够达到76.2% 的acc，而且泛化性更好；还有一种方式就是再重新finetune，同样也是对类别设计几种不同的文本，这样效果能够达到sota的水平！

跨模态检索：

个人感觉CLIP提供了一种跨模态检索的方式，比如以文字搜图，其实这还是比较重要的应用。

总结

CLIP看起来简单，自己在实际用的时候发现效果也很好，美中不足就是太消耗训练资源，个燃感觉可以用类似moco的方式来减少对batch size的依赖。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

【源头活水】连接文本和图像的第一步：CLIP

CV预训练MAE（Masked AutoEncoder）

[Meta-Learning]对Reptile的深度解析

用于文本分类的循环卷积神经网络

Meta-Transfer Learning for Few-Shot Learning

PointPillars论文和代码解析

ICLR'21 | GNN联邦学习的新基准

关于talking face generation两篇论文解读

一个具有隐私保护学习的图联邦架构

图上的边信息怎么办：GNNs与edge feature

一行核心代码提升无监督/自监督模型特征表达

车辆意图预测中一种基于因果时间序列的域泛化方法

因果关系检测提高强化学习效率

基于GNN的层次人脸聚类

CLUES:用于NLU的少样本学习评估

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

生成图片，分享到微信朋友圈

【源头活水】连接文本和图像的第一步：CLIP

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！