百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

【LLM-多模态】Mini-Gemini:挖掘多模态视觉语言模型的潜力

myzbx 2025-04-11 02:35 47 浏览

一、结论写在前面

论文提出了Mini-Gemini,一个精简而强大的多模态VLM框架。Mini-Gemini的本质在于通过战略性框架设计、丰富的数据质量和扩展的功能范围,发掘VLM的潜在能力。其核心是补丁信息挖掘,它通过与高分辨率候选项交互,实现了高效提取细节视觉线索的功能。从数据角度来看,论文精心汇编的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令执行能力。此外,论文在Mini-Gemini中支持基于推理的生成,并使当前VLM具备任意到任意的工作流程。论文在几个零样本基准测试中进行了广泛实验,证明了所提出方法的优越性,它不仅超过了之前的领先方法,甚至超过了私有模型。论文希望Mini-Gemini能够为图像理解和VLM引导生成提供一个强有力的基准。

代码和模型可在
https://github.com/dvlab-research/MiniGemini获取。

二、论文的简单介绍

2.1 论文背景

随着LLM的快速发展,赋予多模态输入强大能力正成为当前视觉语言模型(VLM)的一个重要部分。为了弥合模态差距,进行了几项研究来将视觉与LLM结合,从图像到视频。尽管取得了这些进展,但学术界的倡议与像GPT-4和Gemini这样经过大量数据和资源训练的成熟模型之间仍存在显著差距。

就视觉本身而言,图像分辨率是明确表现周围环境并最小化视觉幻觉的核心部分。为此,进行了更多尝试来进一步提高当前VLM中的视觉理解能力。例如,提出了LLaVA-Next和Otter-HD,通过提高图像分辨率来增强基于之前工作的能力。使用更高分辨率的图像增加视觉token数量无疑会丰富LLM中的视觉嵌入。然而,这种改进带来了更高的计算需求和相关成本,特别是在处理多个图像时。此外,现有的数据质量、模型能力和应用范围仍然无法满足加速训练和开发过程的需求。这种情况提出了一个关键问题:如何在学术环境中以可接受的成本推动VLM向成熟模型靠拢?

为了回答这个问题,论文从三个战略方面探索了VLM的潜力,即高效高分辨率解决方案、高质量数据和扩展应用。首先,论文利用卷积网络有效地生成更高分辨率的候选项,从而增强视觉细节,同时保持LLM的视觉token数量不变。为增强数据质量,论文从不同的公共来源汇总了高质量数据集,确保了丰富多样的数据基础。此外,论文的方法将这些增强与尖端的LLM和生成模型相结合,旨在提高VLM的性能和用户体验。这种多方面的策略使论文能够深入挖掘VLM的能力,在可管理的资源约束下取得重大进展。

2.2 论文的方案

Mini-Gemini框架的概念非常简单:利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选项;提出了补丁信息挖掘,以在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘;利用LLM将文本与图像结合,同时实现理解和生成。

2.2.1 双视觉编码器

在Mini-Gemini框架中,可以处理文本和图像输入,也可以单独或结合处理它们。为了阐述清晰,论文考虑同时处理这两种模态。如图2所示,处理过程首先从高分辨率图像开始,通过双线性插值生成相应的低分辨率图像。然后,论文在两条并行的图像流中对它们进行处理并编码为多网格视觉嵌入。特别地,对于低分辨率(LR)流,论文保持传统管线,并采用预训练的CLIP ViT对视觉嵌入进行编码量。这样可以很好地保留N个视觉补丁之间的长程关系,以备后续在LLM中进行交互。至于高分辨率(HR)流,论文采用基于CNN的编码器进行自适应高效的HR图像处理。

2.2.2 补丁信息挖掘

通过上面生成的LR嵌入和HR特征,论文提出补丁信息挖掘来扩展VLM增强视觉token的潜力。特别地,为了在LLM中保持最终视觉token数量的效率,论文将低分辨率视觉嵌入作为查询,旨在从HR候选项中检索相关视觉线索。

此外,所设计的补丁信息挖掘也支持视觉token扩展。如图3b所示,论文可以将视觉token扩展到5N以捕获更多细节。这是通过结合原始图像及其2倍上采样版本而实现的。

2.2.3 文本和图像生成

利用挖掘出的视觉token和输入文本token ,论文将它们连接作为LLM的输入进行自回归生成,如图2所示。与传统VLM[不同,提出的Mini-Gemini支持以文本和文本-图像作为输入和输出,即任意到任意的推理。除了图像理解之外,论文让Mini-Gemini依靠其卓越的图像-文本理解和推理能力来生成图像。

文本-图像指令:为了更好地实现跨模态对齐和指令微调,论文从公开可用的来源收集了高质量数据集。特别是对于跨模态对齐,论文利用了来自LLaVA过滤的CC3M数据集的558K图像-标题对,以及从ALLaVA数据集采样的695K由GPT-4V回复的标题。总共有120万张图像标题用于投影器预训练。

至于指令微调,论文从LLaVA[数据集中采样了643K个单轮和多轮对话(不包括21K TextCaps数据),从ShareGPT4V采样了100K个QA对,从LAION-GPT-4V采样了10K个标题,从ALLaVA数据集采样了700K个GPT-4V回复的指令对,以及从LIMA和OpenAssistant2采样了6K个纯文本多轮对话。

为增强OCR相关能力,论文进一步收集了28K个QA对,包括10K DocVQA、4K ChartQA、10K DVQA和4K AI2D数据。总的来说,有约150万条与图像理解相关的指令对话。此外,论文还收集了13K个与图像生成相关的指令对,将在后面详细阐述。

与生成相关的指令:为支持图像生成,论文进一步使用GPT-4 Turbo构建了一个包含13K条指令的数据集。如图4所示,训练数据涵盖两项任务:(a)简单指令重述:论文采用8K条来自LAION-GPT-4V的描述性图像标题,让GPT-4反向推理出相应的用户输入短语和目标标题(在Stable Diffusion(SD)域中)。(b)上下文提示生成:基于LIMA和OpenAssistant2中的一些高质量真实对话上下文,论文生成适合对话上下文的图像提示,共计5K条指令。对于这两种数据,在每次向GPT-4发出查询时,论文都会从GigaSheet随机抽取5个高质量的SD文本到图像提示作为上下文示例,以获得用于生成的目标提示。

2.3 论文的效果

2.3.1 实验设置

实现细节:论文采用预训练的CLIP ViTL作为LR视觉编码器,预训练的LAION ConvNext-L作为HR视觉编码器来实例化Mini-Gemini。为实现高效训练,论文固定两个视觉编码器,并在所有阶段优化补丁信息挖掘的投影器。与此同时,论文仅在指令调优阶段优化LLM。关于训练方案,论文使用AdamW优化器和Cosine学习率调度对所有模型进行1个epoch的优化。

数据集:为了模型优化,论文构建了高质量的数据用于跨模态理解和生成。主要包括120万对标题对进行模态对齐,以及150万个单轮或多轮对话进行指令调优。此外,论文在广为采用的零样本图像基准测试中报告了结果,包括VQAT(TextVQA)、MMB(MMBench)、MME、MM-Vet、MMMU和MathVista数据集。

2.3.2 主要结果

正常分辨率:在正常分辨率下,Mini-Gemini在各种规模的LLM上都始终优于现有模型。在高效模型类别中,配置为Gemma-2B的Mini-Gemini展现出了优于高效MobileVLM[63]的性能,甚至超过了配备Vicuna-7B甚至13B的InstructBLIP。当采用更大的LLM时,Mini-Gemini的可扩展性就变得明显。给定相同的LLM,经验证提出的Mini-Gemini在所有基准测试中都大幅领先于LLaVA-1.5。

高分辨率:为验证框架对扩展视觉token的支持,论文在表1中进行了LR视觉编码器输入尺寸为672、HR视觉编码器输入尺寸为1536的实验。如上所述,HR视觉编码器主要用于提供高分辨率候选信息。表1中的详细结果显示,Mini-Gemini在更具挑战性的基准测试中也表现出色。例如,该方法在MathVista[70]和MMMU[25]基准测试上与Qwen-VL-Plus不相上下,甚至在广为采用的MMB基准测试上超过了Gemini Pro和GPT-4V。

2.3.3 逐组件分析

补丁信息挖掘:论文首先深入探讨了提出的补丁信息挖掘,并在表2中报告了结果。很明显,将ConvNeXt-L集成为HR图像的视觉编码器,模型会获得显著的提升。当论文进一步将LR分辨率提高到336时,补丁信息挖掘仍然带来了稳定的增益。例如,使用默认的ConvNeXt-L作为视觉编码器时,它在TextVQA、MME和MM-Vet数据集上分别比基线高出3.3%、6.3%和3.5%。这证明了所设计模块在输入分辨率提高时的能力。

视觉编码器:为研究挖掘候选项带来的效果,论文在表2中使用不同的HR视觉编码器进行了实验。从表中论文可以得出结论,对于HR图像使用更大的视觉编码器有助于提高候选质量,但模型会在像ConvNeXt-XXL这样过于庞大的编码器上达到饱和。因此,考虑到效率和计算效率之间的平衡,论文选择ConvNeXt-L作为默认的HR视觉编码器。这一决策是基于它能够提供高质量的视觉信息挖掘,同时保持合理的计算需求,这一点从基准测试的比较性能可以得到证实。

高质量数据:在表3中,论文全面分析了数据组合效果,首先使用集成了补丁信息挖掘的基线模型。整合来自ShareGPT4V的高质量标题会提高视觉对齐能力并带来性能提升。论文在TextVQA基准测试中验证了零样本性能,并将TextCaps数据从训练集中移除,这导致了显著的性能下降,凸显了特定数据类型在训练中的价值。为了弥补这一下降,论文纳入了来自LAION-GPT-4V的其他高质量标题和专门用于OCR的数据,从而增强了模型的OCR推理能力。

视觉token扩展:如图3b所示,设计的补丁信息挖掘能够熟练地处理扩展的视觉token,从而使其在不同输入分辨率下的实用性得到推广。论文在表3中验证了token扩展的有效性。当增加LR和HR输入分辨率时,模型在所有基准测试中都取得了显著增益。论文的经验观察表明,提高分辨率可以大大减少视觉幻觉,从而带来更准确、更可靠的图像理解能力。

2.3.4 定性结果

视觉理解:为了确认Mini-Gemini在实际场景中的视觉理解能力,论文将其应用于图5中的各种理解和推理任务。得益于补丁信息挖掘和高质量数据,Mini-Gemini能够很好地解决几个复杂案例。

图像生成:在图6中,论文全面评估了Mini-Gemini的生成能力。与最近的AnyGPT和ChatIllusion等研究相比,论文更强的多模态理解能力使论文能够生成与给定指令更加对应的文本到图像描述,从而产生更加贴合上下文的图像-文本答复。值得注意的一点是,如图1和图6所示,它能够基于多模态人类指令生成高质量内容,而只使用了纯文本训练数据。这一能力凸显了Mini-Gemini在图像-文本对齐和语义解释方面的强大技能,这些技能在推理阶段能够发挥作用。借助LLM强大的推理能力,它可以在单轮或多轮对话中产生合理的图像-文本输出。

论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

论文链接:
https://arxiv.org/pdf/2403.18814.pdf

相关推荐

零基础入门AI智能体:详细了解什么是变量类型、JSON结构、Markdown格式

当品牌跳出固有框架,以跨界联动、场景创新叩击年轻群体的兴趣点,一场关于如何在迭代中保持鲜活的探索正在展开,既藏着破圈的巧思,也映照着与新一代对话的密码。在创建AI智能体时,我们会调用插件或大模型,而在...

C# 13模式匹配:递归模式与属性模式在真实代码中的性能影响分析

C#13对模式匹配的增强让复杂数据处理代码更简洁,但递归模式与属性模式的性能差异一直是开发者关注的焦点。在实际项目中,选择合适的模式不仅影响代码可读性,还可能导致执行效率的显著差异。本文结合真实测试...

零基础快速入门 VBA 系列 6 —— 常用对象(工作簿、工作表和区域)

上一节,我介绍了VBA内置函数以及如何自动打字和自动保存文件。这一节,我们来了解一下Excel常用对象。Excel常用对象Excel有很多对象,其中最常用也最重要的包括以下3个:1.Workbo...

不同生命数字的生肖龙!准到雷普!

属龙的人总在自信爆棚和自讨苦吃之间反复横跳?看完这届龙宝宝的日常我悟了。属龙的人好像天生自带矛盾体:领导力超强可人缘时好时坏,工作雷厉风行却总在爱情里翻车。关键年份的龙性格差异更大——76年龙靠谱但不...

仓颉编程语言基础-面向对象编程-属性(Properties)

属性是仓颉颉中一种强大的机制,它允许你封装对类(或接口interface、结构体struct、枚举enum、扩展extend)内部状态的访问。它看起来像一个普通的成员变量(字段),但在其背后,它通过...

Python中class对象/属性/方法/继承/多态/魔法方法详解

一、基础入门:认识类和对象1.类和对象的概念在Python中,类(class)是一种抽象的概念,用于定义对象的属性和行为,而对象(也称为实例)则是类的具体表现。比如,“汽车”可以是一个类,它有...

VBA基础入门:搞清楚对象、属性和方法就成功了一半

如果你刚接触VBA(VisualBasicforApplications),可能会被“对象”“属性”“方法”这些术语搞得一头雾水。但事实上,这三个概念是VBA编程的基石。只要理解它们之间的关系,...

P.O类型文推荐|年度编推合集(一百九十五篇)

点击左上方关注获取更多精彩推文目录2019年度编推35篇(1V1)《悖论》作者:流苏.txt(1V1)《桂花蒸》作者:大姑娘浪.txt(1V1)《豪门浪女》作者:奚行.txt...

Python参数传递内存大揭秘:可变对象 vs 不可变对象

90%的Python程序员不知道,函数参数传递中可变对象的修改竟会导致意想不到的副作用!一、参数传递的本质:对象引用传递在Python中,所有参数传递都是对象引用的传递。这意味着函数调用时传递的不是对...

JS 开发者必看!TC39 2025 最新动向,这些新语法要火?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力。TC39第...

2025 年值得尝试的 5 个被低估的 JavaScript 库

这些JavaScript库可能不会在社交媒体或HackerNews上流行起来,但它们会显著提高您的工作效率和代码质量。JavaScript不再只是框架。虽然React、Vue和Sv...

Python自动化办公应用学习笔记30—函数的参数

一、函数的参数1.形参:o定义:在函数定义时,声明在函数名后面括号中的变量。o作用:它们是函数内部的占位符变量,用于接收函数被调用时传入的实际值。o生命周期:在函数被调用时创建,在函数执...

16种MBTI人格全解析|测完我沉默了三秒:原来我是这样的人?

MBTI性格测试火了这么久,你还不知道自己是哪一型?有人拿它当社交话题,有人拿它分析老板性格,还有人干脆当成择偶参考表。不废话,今天我一次性给你整理全部16种MBTI人格类型!看完你不仅能知道自己是谁...

JS基础与高级应用: 性能优化

在现代Web开发中,性能优化已成为前端工程师必须掌握的核心技能之一。本文从URL输入到页面加载完成的全过程出发,深入分析了HTTP协议的演进、域名解析、代码层面性能优化以及编译与渲染的最佳实践。通过节...

爱思创CSP-J/S初赛模拟赛线上开赛!助力冲入2024年CSP-J/S复赛!

CSP-J/S组初赛模拟赛爱思创,专注信奥教育19年,2022年CSP-J/S组赛事指定考点,特邀NOIP教练,开启全真实CSP-J/S组线上初赛模拟大赛!一、比赛对象:2024年备考CSP-J/S初...