🟢 Q-Former包含了两个transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ;
BLIP2 跌倒项目实战(一)在学习完BLIP,BLIP2模型原理后,如何应用于工业开发至关重要。 为此,本次项目将从零到一实现基于BLIP2的跌倒检测,实现部署→数据构建→微调→量化→部署的工业化项目。不同库版本间有一定的依赖性,条件允许的话可以直接用编者的这套环境,不用花太大时间在配置环境上。 batch_size_train: 2 batch_size_eval: 2 num_workers: 4 warmup_steps: 2000 seed: 42 output_dir: "output/BLIP2 /lavis/output/BLIP2/Pretrain_stage2/20250705160/checkpoint_30.pth", map_location="cpu")msg = model.load_state_dict
ALBEF,BLIP,BLIP2 都是 Junnan Li [1]大佬的杰作,给了我很大的启发。 23年1月,BLIP2出来了,引入了LLM。 我是学自动化出身的,从自动化的角度看看BLIP2。 Q: Do you know BLIP2? A: BLIP2 is a protein that in humans is encoded by the BLIP2 gene. 好吧,不认识。 Q: How many training parameters does BLIP2 have? A: BLIP2 has a total of ten training parameters.
VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的LLM模型,因此,作者在BLIP2 开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【大模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former 2.2 实验与GPT-4对比:有许多相似功能,例如可以生成复杂图像描述,根据手写文字生成网站,解释不正常的现象;与BLIP2对比:根据食物图片生成详细的食谱,根据图片写诗;这些都是BLIP2不具备的功能 ; MINI-GPT4表现比BLIP2要强上许多?
为了无监督地提取个体表示,作者采用了视觉-语言预训练模型BLIP2(Kirch等人,2017年)。通过使用Cut方法,原始图像根据个体定位进行裁剪,提取表示每帧中个体的局部图像块。 尽管所有方法都表现出显著的性能,但BLIP2(Li等人,2019年)作为表现最佳的模型,其T-mAP得分达到了39.44。 这一结果强调了BLIP2相比于其他VLMs(如CLIP(Zhu等人,2019年)和BLIP(Li等人,2019年))在提升追踪性能方面的有效性。 BLIP2在不同精确度阈值下的一致性优势突显了其在捕捉复杂视觉和语言线索以实现更准确追踪方面的鲁棒性和有效性。 这项分析表明,BLIP2的架构融合了对性能提升有益的特征,使其成为在各种场景下追踪任务中的有力选择。 Qualitative Analysis 4.5.1.
通过对比模型训练数据集之间的差异,我们猜测这很可能是因为 InstructBLIP 是在 BLIP2 的基础上再在 13 个类似 VQA 的数据集上微调得到的,而这些微调数据集与上述 5 类多模态能力相应的数据集在任务和具体数据形式和内容上有很多相同点 反观在具身智能任务上,BLIP2 和 InstructBLIP 性能最差,而 LLaMA-Adapter-v2 和 LLaVA 表现最好,这很大程度上是因为后者两个模型都使用了专门的视觉语言指令遵循数据集进行指令微调 从真实用户体验上来看,InstructBLIP 虽然在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上表现最好,但在 Elo 排名欠佳,而且 BLIP2 的用户评价最差。
BLIP2:将图像特征对齐到预训练语言模型 BLIP-2 通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级 查询 Transformer (Query Transformer, Q-Former BLIP2 验证了之前的想法,直接利用已经预训练好的视觉、文本模型,通过设计参数量较少的“对齐模块”来实现多模态的对齐。 然而,注意到 BLIP2 在抽视觉特征其实是不考虑文本的;此时也正值 指令微调 在大语言模型中大杀四方,因此进一步的发展方向也就诞生了。 InstructBLIP:指令微调大杀四方 InstructBLIP 可以理解为是 BLIP2 + 指令微调 作者们收集了 26 数据集并转化指令微调的格式 并改进 BLIP2 中的 Query Transformer 能够具有超强的图文理解能力,作者们的理解是这是得益于大语言模型的能力,因此考虑将最新的一些能跟 ChatGPT “媲美”的语言模型引入其中,这里采用了 Vicuna 作为语言模型,在视觉理解上,作者采用了和 BLIP2
比如,BLIP2 的预训练需要耗费超过 100 个 GPU 小时来处理 1.29 亿个图像 - 文本对。 表 4 比较了 LaVIN、LLaVA 和 BLIP2 训练支出: 图 5 比较了 LaVIN 与现有方法在单模态和多模态的指令跟随任务上的表现,例如数学、编码和图像字幕。
这种结构广泛用于图文预训练(如 BLIP2 的 Q-Former)、多模态对齐、图文检索等任务中。
致谢 •BLIP2[18] MiniGPT-4的模型架构遵循BLIP-2。如果你之前不了解它,不要忘记查看这个伟大的开源工作!•Lavis[19] 这个库是基于Lavis构建的! [17] train_configs/minigpt4_stage1_pretrain.yaml: train_configs/minigpt4_stage2_finetune.yaml [18] BLIP2
我们的结果表明,最先进的模型(如 GPT3 和 BLIP2)在 WHOOPS! 上仍然落后于人类表现。我们希望我们的数据集能够激发具有更强视觉常识推理能力的 AI 模型的开发。
例如,在以下以图搜图的场景中,将一张正在缫丝的图片传递给不同模型时,CLIP 模型可能仅能捕捉到这是一种 “手工艺活动”,而无法识别出具体的精细缫丝过程,这与一些更专业的模型DINO-v2 和 BLIP2
其中BLIP2引入了Q-Former连接视觉和语言模型;Flamingo和OpenFlamingo通过引入新颖的门控交叉注意力层,使得大语言模型具备理解视觉输入的能力;LLaVA开创性地使用GPT-4生成多模态指令跟随数据 由于BLIP2等LMMs的输入分辨率受限,它们在场景文本问答、文档问答和关键信息抽取等任务中提取细粒度信息的能力较弱。
其中,研究者采用 BLIP2 模型来为图片标上文本。 基于这样的优化目标,在一阶段时期,该方法对参考视角周围的相机姿态进行随机采样。
对于视觉感知,研究人员仅对图像标题生成部分进行投影层的训练,并且保持来自BLIP2的Q-Former固定。 对于音频理解,他们同时训练了Q-Former和音频标题生成部分。
下载地址:https://arxiv.org/pdf/2301.12597.pdf 开源代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
https://arxiv.org/pdf/2301.12597.pdf GitHub链接: https://github.com/salesforce/LAVIS/tree/main/projects/blip2
Vision-CAIR/VisualGPT ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner 此外,项目中还使用了开源代码库包括 BLIP2
一系列模型在短时间内如雨后春笋般涌现了出来,例如 BLIP2, MiniGPT-4, LLaVA, mPLUG-Owl。但是,如何来全面地评估一个多模态模型仍然是一个比较棘手的问题。
此外, L\in\mathbb{R}^{B\times T_{l}\times C_{l}} 表示从基准真值文字注释(由BLIP2从HR图像中提取得到)中提取的CLIP语言嵌入。 使用 BLIP2 为每张 HR 图像生成三段描述文字,并过滤掉 CLIP 分数低于 0.28 的文字。