文本图像多模态基础-clip的细节解读
目录
一、我写的目的
二、原文出处
三、方法和benchmark
3.1 方法原理
3.2 值得注意的代码细节
实际的损失函数计算:
evaluation的计算:
backbone的类型:
3.3 benchamrk
推理时的细节-benchmark比较:
经典benchmark对比
zero-shot和有监督的分类器的对比
对分类的鲁棒性
性能天梯图
四、具体应用和遇到的问题
4.1 clip的训练的问题
4.2 测试和部署的问题
4.3 数据质量的问题
一、我写的目的
- 很久没有写东西了,被工作打得无力他顾,想散散心写写心得
- 收一收这个基础工作我的理解,再回过头看这篇文章真的太伟大了,细节太多了
- 想将自己的工作逐渐来总结一下,一篇一篇的沉淀下来
- 真的要学习clip的作者的思路和实验,这些才是核心竞争力
二、原文出处
- paper:https://arxiv.org/pdf/2103.00020
- code:
- openai-clip:https://github.com/openai/CLIP
- open-clip:https://github.com/mlfoundations/open_clip
- meta-clip:https://github.com/facebookresearch/MetaCLIP
- 还有其他clip的开源+改进,具体可以看open-clip的code里面clip性能天梯表
三、方法和benchmark
3.1 方法原理
具体框架应该社区文档都讲过,如上图所示:
- 训练时:
- 同时使用视觉encoder和文本encoder对input进行特征提取,则将图像和文本拉到同一特征空间;
- 然后对上述两两特征之间做对比学习,使得相似的文本和图像对靠近(对角线),不相似的图像-文本对则彼此拉远;
- 对比学习细节:对文本模态和视觉模态的特征做余弦相似度计算,code的具体实现是对对角线上的特征做内积,特征越相似则向量内积越大
- 推理时:
- clip其实算是一个zero-shot的分类器,如上图所示,假如是“cat”, 实际上输入最好是使用 “a photo of a cat”自动补齐后对文本进行编码;
- 接着同样是对图像和文本提取embedding,然后对不同label进行内积计算,结合训练过程可以简单推导,内积最大的自然就是最可靠的标签
- 注意了,这里对新手很容易固化思维,认为clip就是一个简单的单标签分类器,其实这里更重要的,是clip的跨模态比较的能力,这个是很多多模态的基础,相应的理论或者甚至直接引用方法可引用到图像生成、检索和GPT上去
3.2 值得注意的代码细节
实际的损失函数计算:
值得注意的是,,这里面输入有一个logit_scale,这个参数是对logit的值裁剪或者限制在一个指定区间,通过这个参数缩放图像和文本特征之间的相似度分数,从而控制logits的动态范围,便更好地学习图像和文本特征之间的匹配关系,softmax以后也会扩大正样本的置信度
evaluation的计算:
(这个地方比较复杂,新手比较难以理解,但这个很重要,我抽空补上吧,写在我的笔记本里面了):
backbone的类型:
- backbone这里主要指图像backbone,包括res50、vit16、vit32等,这些不同的backbone配合不同的激活函数又是一波排列组合,比如meta-clip里面最好的是h14+gelu激活函数;
- 注意不同的backbone的channel数量是不一致的,这个需要结合cfg文件来看,尤其是最后一层的embedding的dim维度也是不一致的,利用clip来部署或者实际写代码的同学需要注意了,对工程侧其实是有影响的
注意,在绝对的指标里面,backbone的选型不能作为判断指标高低的标准,对clip这种大模型而言,其实更重要的是数据质量,即不同的数据集,高质量数据代表一切
3.3 benchamrk
推理时的细节-benchmark比较:
如上所示,简单来说,使用prompt的句式会整体而言比直接使用单词指标会更高,paper原文说的是只是用单词的label会有一些歧义等,缺少上下文信息,并且如果真的训练过clip,就会发现,clip的很多数据都是caption而非简单的label,使用句子也是一种在domain内的输入
经典benchmark对比
使用res50的zero-shot和全监督的线性分类器的对比,可以看到clip在很多数据集上非常强势,但在卫星图像分类、淋巴转移检测和合成场景计数等复杂任务中表现较差。
原文说:这表明 CLIP 预训练的特征编码器并不能在所有任务中都表现出色,特别是在与训练数据分布差异较大的领域仍有明显不足。
实际上:实际上的意思就是啥? 就是大模型的泛化性能其实来源于高质量数据,如果这个场景在之前的数据里从未见过,大模型其实也是没有办法保证泛化能力的,这一点其实是非常重要的认知,其实很多观点说大模型的参数量和数据量达到一定程度时,会出现”涌现“现象,会解决类似的泛化问题,大幅度提升性能,其实在这里就会发现,其实还是数据代表一切(我的观点)
zero-shot和有监督的分类器的对比
上文给出的左图的意思是clip的zero-shot能力和有多少个样本的完全监督学习对比,而右边是说明了zero-shot和linear的对比,显示其实clip的zero-shot其实比linear其实还是差不少的,零样本性能大多比线性分类性能低10到25个百分点。只有在5个数据集上,零样本性能接近线性探针性能(差异≤3个百分点)。这个思路真的太牛逼了,进一步说明了其实zero-shot其实还有很大的提升空间
对分类的鲁棒性
这张图其实我没看的怎么懂,主要是这张图的实际项目使用我没有去细究,大概意思是说clip相比于res101对同一类数据的分布也具备很强的泛化性能,比如上面不同数据的香蕉,clip表示出了高置信度的泛化性能,再一次感觉clipd的实验思路(感谢部门大佬的指点,让我从交付思路转化到了更高的方法论思路)
性能天梯图
其实我一直以为这张图跟模型容量是有关系的,留个todo给自己吧
3.4 很有意思的细节
四、具体应用和遇到的问题
4.1 clip的训练的问题
回退问题:训练特别容易回退,即会出现clip在自己的数据集上效果提升,但是模型本身的zero-shot能力下降了
解决方法:xxxxx,不在博客上写了,挺有意思的方法
4.2 测试和部署的问题
clip其实目前来看不太好做多标签分类,导致对应的训练和evaluation都不太好做,在实际工程化的情况下其实有一些局限
4.3 数据质量的问题
参照paper的方法去构建大模型高质量数据集,在小规模上数据上很容易出现问题,噪音将取代GT,这个地方结合LLM使用时尤其要注意,显性化数据集的caption
相关文章:
文本图像多模态基础-clip的细节解读
目录 一、我写的目的 二、原文出处 三、方法和benchmark 3.1 方法原理 3.2 值得注意的代码细节 实际的损失函数计算: evaluation的计算: backbone的类型: 3.3 benchamrk 推理时的细节-benchmark比较: 经典benchmark对…...
c4d动画怎么导出mp4视频,c4d动画视频格式设置
宝子们,今天来给大家讲讲 C4D 咋导出mp4视频的方法。通过用图文教程的形式给大家展示得明明白白的,让你能轻松理解和掌握,不管是理论基础,还是实际操作和技能技巧,都能学到,快速入门然后提升自己哦。 c4d动…...
Mysql复习(二)
一、 DBMS:是管理数据库的软件的集合,是用户访问数据库的接口。主要功能:数据定义、数据操纵、数据库运行管理、数据库建立与维护等 二、 关系模式的完整性规则包括(实体完整性、参照完整性和用户自定义完整性) 实体…...
【芯片设计- RTL 数字逻辑设计入门 番外篇 13 -- FAB厂中PE工程师和PIE工程师的区别】
文章目录 Overview岗位职责的核心区别PE工程师:岗位要求的差异PE工程师接触面和协作关系后期职业发展方量产与研发的区别转自: 老虎说芯 老虎说芯 2024年12月20日 12:30 广东 Overview 在导体制造行业中,PE工程师(Process Engineer,工艺工程师)和PIE工程师(Process Int…...
java中的输入输出
目录 1.基本概念1.标准输入流(System.in):2.标准输出流(System.out):3.Scanner 类:4.File 类:6.BufferedReader 和 BufferedWriter:7.PrintWriter:…...
java抽奖系统(八)
9. 抽奖模块 9.1 抽奖设计 抽奖过程是抽奖系统中最重要的核⼼环节,它需要确保公平、透明且⾼效。以下是详细的抽奖过程设计: 对于前端来说,负责控制抽奖的流程,确定中奖的人员 对于后端来说: 接口1:查询完…...
在技术文档中多使用各种图
有些事情在文档中掰扯十几页,不如一幅图讲的明白!举个例子下面这幅图就是一个EDI 835电子报文(就是医保了,美国加州的)的业务流程。如果纯靠文字来描述,写很多文字不一定能说清楚。所以俺画了这幅图&#x…...
GB28181学习总结
GB28181学习总结 前言 我认为,学习一个新东西可以分成两步: 作用是什么? 原理是什么? 所以本文将从两个问题出发,对GB28181进行总结: GB28181是什么? GB28181原理是什么? GB…...
矩阵论:Vector-Valued Linear and Affine Functions介绍:中英双语
最近在翻看 这本书,对其中的一些英文概念做一些记录。 Link:https://web.stanford.edu/~boyd/books.html 中文版 向量值线性函数和仿射函数的详解 在机器学习、数据科学和工程应用中,向量值线性函数和仿射函数是非常重要的数学工具。本…...
网络七层杀伤链
声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&…...
某狐畅游24校招-C++开发岗笔试(单选题)
某狐畅游24校招-C开发岗笔试 目录 某狐畅游24校招-C开发岗笔试一、单选题二、单选题解析 本文题目源来自:[PTA程序设计类实验辅助教学平台](PTA | 程序设计类实验辅助教学平台) 一、单选题 1-1 若有说明 int a[2][3]; 则对 a 数组元素的正确引用是 A. a[0][11]B. …...
spring mvc | servlet :serviceImpl无法自动装配 UserMapper
纯注解SSM整合 解决办法: 在MybatisConfig添加 Configuration MapperScan("mapper")...
在 CentOS 上安装 MySQL 8
在 CentOS 上安装 MySQL 8 您可以按照以下步骤操作: 1. 更新系统 首先,更新系统软件包以确保安装的最新版本。 sudo yum update -y 2. 安装 MySQL 8 安装 MySQL 存储库 wget https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.r…...
EMC VMAX/DMX 健康检查方法
近期连续遇到2个由于对VMAX存储系统没有做及时的健康检查,出现SPS电池故障没有及时处理,然后同一pair就是同一对的另外一个SPS电池再次出现故障,然后存储系统保护性宕机vault,然后业务系统挂掉的案例。 开始之前,先纠…...
深入理解Kafka:核心设计与实践原理读书笔记
目录 初识Kafka基本概念安装与配置ZooKeeper安装与配置Kafka的安装与配置 生产与消费服务端参数配置 生产者客户端开发消息对象 ProducerRecord必要的参数配置发送消息序列化分区器生产者拦截器 原理分析整体架构元数据的更新 重要的生产者参数acksmax.request.sizeretries和re…...
Ubuntu命令行网络配置
临时连接 为什么需要临时连接,你最好测试你的网络适配器驱动能够连接到网络,然后再进行进一步的配置自动连接,否则也许会一直处在“折腾”中。 查看网络状态 ip addr show激活网络接口: sudo ip link set <适配器名称> up使…...
Wireshark软件下载安装及基础
前言 本次学习的是在b站up主泷羽sec课程有感而发,如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负。 !!…...
16asm - 宏汇编语法
文章目录 前言宏汇编表达式算术表达式逻辑运算关系运算符 标号匿名标号调整偏移量指令ORG当前地址指令$ 结构体宏equ语句语句macro语句 多文件编译源文件头文件函数使用全局变量编译 选择结构循环结构 总结 前言 各位师傅大家好,我是qmx_07,今天讲解 宏汇编的相关内…...
5.C语言内存分区-堆-栈
目录 内存分区 运行之前 代码区 全局初始化数据区 、静态数据区 (data) 未初始化数据区(bss(Block Started by Symbol)区) 总结 运行之后 代码区 (text segment) 未初始化数据区(bss) 全局初始化数据区,静态…...
【模拟】饮料促销
题目描述 暑期到了,各大商场都开始举办饮料促销优惠活动,卡卡维他命水凭3个瓶盖可以再换一瓶并且可以一直循环下去(但不允许暂借或赊账)。请你计算一下,如果小明不浪费瓶盖,尽量地参加活动,那么对于他初始买入的 n 瓶…...
RFdiffusion get_torsions函数解读
函数功能 get_torsions 函数根据输入的原子坐标(xyz_in)和氨基酸序列(seq),计算一组主链和侧链的扭转角(torsions)。同时生成备用扭转角(torsions_alt),用于表示可以镜像翻转的几何结构,并返回掩码(tors_mask)和是否平面化(tors_planar)的信息。 输入参数 xyz…...
重拾设计模式--组合模式
文章目录 1 、组合模式(Composite Pattern)概述2. 组合模式的结构3. C 代码示例4. C示例代码25 .应用场景 1 、组合模式(Composite Pattern)概述 定义:组合模式是一种结构型设计模式,它允许你将对象组合成…...
IntelliJ IDEA Docker集成
一、概述 Docker是一种用于在隔离和可复制环境中部署和运行可执行文件的工具。这可能很有用,例如,在与生产相同的环境中测试代码。 IntelliJ IDEA集成了Docker功能,并为创建Docker映像、运行Docker容器、管理Docker Compose应用程序、使用公…...
【Blender】【源码详解】BLI_mesh_boolean 实现详解
1. 背景: 最近因为项目需要,需要阅读 Blender 中关于 mesh boolean 的源码;因此,对 blender 中的 mesh boolean 源码进行解读; Github 上源码下载很慢,一般使用 Gitee: gitee Blender 源码 2. Mesh Boole…...
36. Three.js案例-创建带光照和阴影的球体与平面
36. Three.js案例-创建带光照和阴影的球体与平面 实现效果 知识点 Three.js基础 WebGLRenderer WebGLRenderer 是Three.js中最常用的渲染器,用于将场景渲染到网页上。 构造器 new THREE.WebGLRenderer(parameters)参数类型描述parametersobject可选参数&#…...
C语言 函数嵌套
#include <stdio.h> void new_line() {printf("hehe\n"); } void three_line() {int i 0;for (i 0; i < 3; i){new_line;} } int main() {three_line();return 0; } 函数可以嵌套调用,但不能嵌套定义 链式访问 main有三个参数 //main函数的…...
Android adb查看某个进程的总线程数
Android adb查看某个进程的总线程数 adb shell 进入控制台,然后: top -m 20 列出当前系统的进程,找到目标进程的id, ps -T 进程id | wc -l Android adb shell ps进程查找以及kill-CSDN博客文章浏览阅读777次,点赞3次&a…...
安装milvus以及向量库增删改操作
首先电脑已经安装了docker windows电脑可下载yml文件 https://github.com/milvus-io/milvus/releases/download/v2.4.6/milvus-standalone-docker-compose.yml 创建milvus文件夹,并在这个目录下创建五个文件夹:conf、db、logs、pic、volumes、wal 然后…...
基于深度学习多图像融合的屏幕缺陷检测方案
公司项目,已申请专利。 深度学习作为新兴技术在图像领域蓬勃发展,因其自主学习图像数据特征的性能避免了人工设计算法的繁琐,精准的检测性能、高效的检测效率以及对各种不同类型的图像任务都有比较好的泛化性能,使得深度学习技术在…...
OAuth 2.0
简介 OAuth 是一种开放标准的授权协议或框架,它提供了一种安全的方式,使第三方应用程序能够访问用户在其他服务上的受保护资源,而无需共享用户的凭证(如用户名和密码)。OAuth 的核心思想是通过“授权令牌”来代替直接…...
2024年11月 蓝桥杯青少组 STEMA考试 Scratch真题
2024年11月 蓝桥杯青少组 STEMA考试 Scratch真题(选择题) 题目总数:5 总分数:50 选择题 第 1 题 单选题 Scratch运行以下程宇后,小兔子会( )。 A. 变小 B. 变大 C. 变色 D. …...
pat乙级1072 开学寄语
下图是上海某校的新学期开学寄语:天将降大任于斯人也,必先删其微博,卸其 QQ,封其电脑,夺其手机,收其 ipad,断其 wifi,使其百无聊赖,然后,净面、理发、整衣&am…...
【Linux系统编程】:信号(2)——信号的产生
1.前言 我们会讲解五种信号产生的方式: 通过终端按键产生信号,比如键盘上的CtrlC。kill命令。本质上是调用kill()调用函数接口产生信号硬件异常产生信号软件条件产生信号 前两种在前一篇文章中做了介绍,本文介绍下面三种. 2. 调用函数产生信号 2.1 k…...
Qwen2.5-7B 微调rz吧数据集
Qwen2.5-7B 微调弱智吧数据集 模型微调简介 模型微调是一种在已有预训练模型的基础上,通过使用特定任务的数据集进行进一步训练的技术。这种方法允许模型在保持其在大规模数据集上学到的通用知识的同时,适应特定任务的细微差别。使用微调模型ÿ…...
未来将要被淘汰的编程语言
COBOL - 这是一种非常古老的语言,主要用于大型企业系统和政府机构。随着老一代IT工作人员的退休,COBOL程序员变得越来越少。Fortran - 最初用于科学和工程计算,Fortran在特定领域仍然有其应用,但随着更现代的语言(如Py…...
翻转(蓝桥杯2023大学C组试题E)
【问题描述】:小蓝用黑白棋的n个棋子排成了一行,他在脑海里想象出了一个长度为n的01串T,他发现如果把黑棋当作1、白棋当做0,这一行棋子是一个长度为n的01串S。 小蓝如果在S中发现一颗棋子和它两边的棋子都不一样,可以将…...
期权VIX指数构建与择时应用
芝加哥期权交易 所CBOE的波动率指数VIX 是反映 S&P 500 指数未来 30 天预测期波动率的指标,由于预期波动率多用于表征市场情绪,因此 VIX 也被称为“ 恐慌指数”。 VIX指数计算 VIX 反映了市场情绪和投资者的风险偏好, 对于欧美市场而言…...
Nginx界的天花板-Oracle 中间件OHS 11g服务器环境搭建
环境信息 服务器基本信息 如下表,本次安装总共使用2台服务器,具体信息如下: 服务器IP DNS F5配置 OHS1 172.xx.xx.xx ohs01.xxxxxx.com ohs.xxxxxx.com OHS2 172.xx.xx.xx ohs02.xxxxxx.com 服务器用户角色信息均为:…...
torch.unsqueeze:灵活调整张量维度的利器
在深度学习框架PyTorch中,张量(Tensor)是最基本的数据结构,它类似于NumPy中的数组,但可以在GPU上运行。在日常的深度学习编程中,我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是…...
为什么使用环形队列
1.看以下两种情况。第一种不会出现问题,当主流程读取次数比较慢时,数据会被覆盖。 2.扩大空间。不可取。 3.什么是队列...
Qt之QML应用程序开发:给应用程序添加图标文件
开发环境: 1、Qt Creator 14.0.1 2、windows10 先看下面的步骤,不明白再返回来看下面官方指导链接。 先看下面的步骤,不明白再返回来看下面官方指导链接。 先看下面的步骤,不明白再返回来看下面官方指导链接。 --------------------------------------------------------…...
基于xiaothink对Wanyv-50M模型进行c-eval评估
使用pypi安装xiaothink: pip install xiaothink1.0.2下载模型: 万语-50M 开始评估(修改模型路径后即可直接开始运行,结果保存在output文件夹里): import os import json import pandas as pd import re from tqdm import tqdm i…...
大模型项目如何成功落地?
随着人工智能的快速发展,大模型已经成为企业转型和提升效率的关键工具。要让大模型成功落地,需要几个关键要素,以及明白如何组建一个高效的团队。 首先,成功的关键在于业务人员的积极参与,这是项目成功的起点。 其次…...
重构(二)
继续"提高代码质量" 接着上文提高代码质量, 需要从这几个特点入手 1、代码重用性。2、可读性。3、可扩展性。4、可靠性。5、高内聚,低耦合。 仅仅就"可读性"去分析一下吧, 毕竟例子实在是太多了 递归的"可读性"不如while循环 递归…...
Sapro编程软件
Sapro软件是由西门子建筑科技公司开发的一款编程软件,主要用于Climatix控制器的编程、调试及相关功能实现.以下是其具体介绍: • 功能强大:可进行HVAC控制编程,实现设备控制、HMI用户访问和设备集成等功能,满足复杂的…...
EasyGBS国标GB28181公网平台P2P远程访问故障诊断:云端服务端排查指南
随着信息技术的飞速发展,视频监控领域正经历从传统安防向智能化、网络化安防的深刻转变。EasyGBS平台,作为基于国标GB28181协议的视频流媒体平台,为用户提供了强大的视频监控直播功能。然而,在实际应用中,P2P远程访问可…...
学生管理系统,增加教师管理,班级管理,角色功能权限管理
为了在现有的学生管理系统中增加**教师管理**、**班级管理**以及**角色和权限管理**,我们需要对数据库进行扩展,并相应地更新 Python 代码和用户界面。以下是详细的步骤和代码示例。 ## 1. 数据库扩展 ### 1.1 创建新表 #### 教师表 (teachers) sql …...
Vue CLI 脚手架创建项目流程详解 (2)
更新 CLI 脚手架 确保你安装的是最新版本的 Vue CLI,以支持最新的特性及改进。你可以通过以下命令全局安装或更新 Vue CLI: npm install -g vue/cli创建 Vue 3.x 项目 启动创建向导 使用 vue create 命令来开始创建一个新的 Vue 项目: vue …...
LabVIEW机械故障诊断中的传感器选择
在机械设备故障诊断中,传感器是关键设备,用于采集设备运行状态的各种数据。常见的传感器类型和选择方法如下: 1. 振动传感器 用于检测设备运行中的振动特征,常见于旋转机械和轴承故障诊断。 加速度传感器:检测高频振…...
二叉树_堆
目录 一. 树(非线性结构) 1.1 树的概念与结构 1.2 树的表示 二. 二叉树 2.1 二叉树的概念与结构 2.2 特殊的二叉树 2.3 二叉树的存储结构 三. 实现顺序结构的二叉树 3.1 堆的概念与结构 一. 树(非线性结构) 1.1 树的概念与结构 概念ÿ…...