百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

【LLM-多模态】Mini-Gemini:挖掘多模态视觉语言模型的潜力

myzbx 2025-04-11 02:35 32 浏览

一、结论写在前面

论文提出了Mini-Gemini,一个精简而强大的多模态VLM框架。Mini-Gemini的本质在于通过战略性框架设计、丰富的数据质量和扩展的功能范围,发掘VLM的潜在能力。其核心是补丁信息挖掘,它通过与高分辨率候选项交互,实现了高效提取细节视觉线索的功能。从数据角度来看,论文精心汇编的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令执行能力。此外,论文在Mini-Gemini中支持基于推理的生成,并使当前VLM具备任意到任意的工作流程。论文在几个零样本基准测试中进行了广泛实验,证明了所提出方法的优越性,它不仅超过了之前的领先方法,甚至超过了私有模型。论文希望Mini-Gemini能够为图像理解和VLM引导生成提供一个强有力的基准。

代码和模型可在
https://github.com/dvlab-research/MiniGemini获取。

二、论文的简单介绍

2.1 论文背景

随着LLM的快速发展,赋予多模态输入强大能力正成为当前视觉语言模型(VLM)的一个重要部分。为了弥合模态差距,进行了几项研究来将视觉与LLM结合,从图像到视频。尽管取得了这些进展,但学术界的倡议与像GPT-4和Gemini这样经过大量数据和资源训练的成熟模型之间仍存在显著差距。

就视觉本身而言,图像分辨率是明确表现周围环境并最小化视觉幻觉的核心部分。为此,进行了更多尝试来进一步提高当前VLM中的视觉理解能力。例如,提出了LLaVA-Next和Otter-HD,通过提高图像分辨率来增强基于之前工作的能力。使用更高分辨率的图像增加视觉token数量无疑会丰富LLM中的视觉嵌入。然而,这种改进带来了更高的计算需求和相关成本,特别是在处理多个图像时。此外,现有的数据质量、模型能力和应用范围仍然无法满足加速训练和开发过程的需求。这种情况提出了一个关键问题:如何在学术环境中以可接受的成本推动VLM向成熟模型靠拢?

为了回答这个问题,论文从三个战略方面探索了VLM的潜力,即高效高分辨率解决方案、高质量数据和扩展应用。首先,论文利用卷积网络有效地生成更高分辨率的候选项,从而增强视觉细节,同时保持LLM的视觉token数量不变。为增强数据质量,论文从不同的公共来源汇总了高质量数据集,确保了丰富多样的数据基础。此外,论文的方法将这些增强与尖端的LLM和生成模型相结合,旨在提高VLM的性能和用户体验。这种多方面的策略使论文能够深入挖掘VLM的能力,在可管理的资源约束下取得重大进展。

2.2 论文的方案

Mini-Gemini框架的概念非常简单:利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选项;提出了补丁信息挖掘,以在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘;利用LLM将文本与图像结合,同时实现理解和生成。

2.2.1 双视觉编码器

在Mini-Gemini框架中,可以处理文本和图像输入,也可以单独或结合处理它们。为了阐述清晰,论文考虑同时处理这两种模态。如图2所示,处理过程首先从高分辨率图像开始,通过双线性插值生成相应的低分辨率图像。然后,论文在两条并行的图像流中对它们进行处理并编码为多网格视觉嵌入。特别地,对于低分辨率(LR)流,论文保持传统管线,并采用预训练的CLIP ViT对视觉嵌入进行编码量。这样可以很好地保留N个视觉补丁之间的长程关系,以备后续在LLM中进行交互。至于高分辨率(HR)流,论文采用基于CNN的编码器进行自适应高效的HR图像处理。

2.2.2 补丁信息挖掘

通过上面生成的LR嵌入和HR特征,论文提出补丁信息挖掘来扩展VLM增强视觉token的潜力。特别地,为了在LLM中保持最终视觉token数量的效率,论文将低分辨率视觉嵌入作为查询,旨在从HR候选项中检索相关视觉线索。

此外,所设计的补丁信息挖掘也支持视觉token扩展。如图3b所示,论文可以将视觉token扩展到5N以捕获更多细节。这是通过结合原始图像及其2倍上采样版本而实现的。

2.2.3 文本和图像生成

利用挖掘出的视觉token和输入文本token ,论文将它们连接作为LLM的输入进行自回归生成,如图2所示。与传统VLM[不同,提出的Mini-Gemini支持以文本和文本-图像作为输入和输出,即任意到任意的推理。除了图像理解之外,论文让Mini-Gemini依靠其卓越的图像-文本理解和推理能力来生成图像。

文本-图像指令:为了更好地实现跨模态对齐和指令微调,论文从公开可用的来源收集了高质量数据集。特别是对于跨模态对齐,论文利用了来自LLaVA过滤的CC3M数据集的558K图像-标题对,以及从ALLaVA数据集采样的695K由GPT-4V回复的标题。总共有120万张图像标题用于投影器预训练。

至于指令微调,论文从LLaVA[数据集中采样了643K个单轮和多轮对话(不包括21K TextCaps数据),从ShareGPT4V采样了100K个QA对,从LAION-GPT-4V采样了10K个标题,从ALLaVA数据集采样了700K个GPT-4V回复的指令对,以及从LIMA和OpenAssistant2采样了6K个纯文本多轮对话。

为增强OCR相关能力,论文进一步收集了28K个QA对,包括10K DocVQA、4K ChartQA、10K DVQA和4K AI2D数据。总的来说,有约150万条与图像理解相关的指令对话。此外,论文还收集了13K个与图像生成相关的指令对,将在后面详细阐述。

与生成相关的指令:为支持图像生成,论文进一步使用GPT-4 Turbo构建了一个包含13K条指令的数据集。如图4所示,训练数据涵盖两项任务:(a)简单指令重述:论文采用8K条来自LAION-GPT-4V的描述性图像标题,让GPT-4反向推理出相应的用户输入短语和目标标题(在Stable Diffusion(SD)域中)。(b)上下文提示生成:基于LIMA和OpenAssistant2中的一些高质量真实对话上下文,论文生成适合对话上下文的图像提示,共计5K条指令。对于这两种数据,在每次向GPT-4发出查询时,论文都会从GigaSheet随机抽取5个高质量的SD文本到图像提示作为上下文示例,以获得用于生成的目标提示。

2.3 论文的效果

2.3.1 实验设置

实现细节:论文采用预训练的CLIP ViTL作为LR视觉编码器,预训练的LAION ConvNext-L作为HR视觉编码器来实例化Mini-Gemini。为实现高效训练,论文固定两个视觉编码器,并在所有阶段优化补丁信息挖掘的投影器。与此同时,论文仅在指令调优阶段优化LLM。关于训练方案,论文使用AdamW优化器和Cosine学习率调度对所有模型进行1个epoch的优化。

数据集:为了模型优化,论文构建了高质量的数据用于跨模态理解和生成。主要包括120万对标题对进行模态对齐,以及150万个单轮或多轮对话进行指令调优。此外,论文在广为采用的零样本图像基准测试中报告了结果,包括VQAT(TextVQA)、MMB(MMBench)、MME、MM-Vet、MMMU和MathVista数据集。

2.3.2 主要结果

正常分辨率:在正常分辨率下,Mini-Gemini在各种规模的LLM上都始终优于现有模型。在高效模型类别中,配置为Gemma-2B的Mini-Gemini展现出了优于高效MobileVLM[63]的性能,甚至超过了配备Vicuna-7B甚至13B的InstructBLIP。当采用更大的LLM时,Mini-Gemini的可扩展性就变得明显。给定相同的LLM,经验证提出的Mini-Gemini在所有基准测试中都大幅领先于LLaVA-1.5。

高分辨率:为验证框架对扩展视觉token的支持,论文在表1中进行了LR视觉编码器输入尺寸为672、HR视觉编码器输入尺寸为1536的实验。如上所述,HR视觉编码器主要用于提供高分辨率候选信息。表1中的详细结果显示,Mini-Gemini在更具挑战性的基准测试中也表现出色。例如,该方法在MathVista[70]和MMMU[25]基准测试上与Qwen-VL-Plus不相上下,甚至在广为采用的MMB基准测试上超过了Gemini Pro和GPT-4V。

2.3.3 逐组件分析

补丁信息挖掘:论文首先深入探讨了提出的补丁信息挖掘,并在表2中报告了结果。很明显,将ConvNeXt-L集成为HR图像的视觉编码器,模型会获得显著的提升。当论文进一步将LR分辨率提高到336时,补丁信息挖掘仍然带来了稳定的增益。例如,使用默认的ConvNeXt-L作为视觉编码器时,它在TextVQA、MME和MM-Vet数据集上分别比基线高出3.3%、6.3%和3.5%。这证明了所设计模块在输入分辨率提高时的能力。

视觉编码器:为研究挖掘候选项带来的效果,论文在表2中使用不同的HR视觉编码器进行了实验。从表中论文可以得出结论,对于HR图像使用更大的视觉编码器有助于提高候选质量,但模型会在像ConvNeXt-XXL这样过于庞大的编码器上达到饱和。因此,考虑到效率和计算效率之间的平衡,论文选择ConvNeXt-L作为默认的HR视觉编码器。这一决策是基于它能够提供高质量的视觉信息挖掘,同时保持合理的计算需求,这一点从基准测试的比较性能可以得到证实。

高质量数据:在表3中,论文全面分析了数据组合效果,首先使用集成了补丁信息挖掘的基线模型。整合来自ShareGPT4V的高质量标题会提高视觉对齐能力并带来性能提升。论文在TextVQA基准测试中验证了零样本性能,并将TextCaps数据从训练集中移除,这导致了显著的性能下降,凸显了特定数据类型在训练中的价值。为了弥补这一下降,论文纳入了来自LAION-GPT-4V的其他高质量标题和专门用于OCR的数据,从而增强了模型的OCR推理能力。

视觉token扩展:如图3b所示,设计的补丁信息挖掘能够熟练地处理扩展的视觉token,从而使其在不同输入分辨率下的实用性得到推广。论文在表3中验证了token扩展的有效性。当增加LR和HR输入分辨率时,模型在所有基准测试中都取得了显著增益。论文的经验观察表明,提高分辨率可以大大减少视觉幻觉,从而带来更准确、更可靠的图像理解能力。

2.3.4 定性结果

视觉理解:为了确认Mini-Gemini在实际场景中的视觉理解能力,论文将其应用于图5中的各种理解和推理任务。得益于补丁信息挖掘和高质量数据,Mini-Gemini能够很好地解决几个复杂案例。

图像生成:在图6中,论文全面评估了Mini-Gemini的生成能力。与最近的AnyGPT和ChatIllusion等研究相比,论文更强的多模态理解能力使论文能够生成与给定指令更加对应的文本到图像描述,从而产生更加贴合上下文的图像-文本答复。值得注意的一点是,如图1和图6所示,它能够基于多模态人类指令生成高质量内容,而只使用了纯文本训练数据。这一能力凸显了Mini-Gemini在图像-文本对齐和语义解释方面的强大技能,这些技能在推理阶段能够发挥作用。借助LLM强大的推理能力,它可以在单轮或多轮对话中产生合理的图像-文本输出。

论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

论文链接:
https://arxiv.org/pdf/2403.18814.pdf

相关推荐

路痴的福音 谷歌地图AR实景导航Live View正式上线

2月份起,谷歌地图开始测试一项新功能,即是在行人导航功能中加入AR实景导航。用户可以通过设备屏幕,在实际的街道中见到路线指示,使导航功能不只在地图上,而是更融合在真实环境中。谷歌地图AR实景导航(图源...

Google地图怎么设置中文 谷歌地图app设置语言为中文

Google地图是一款知名的地图导航客户端,这是一款很好用的地图软件,Google地图怎么设置中文呢,不少人可能不是很清楚,下面就和小编一起来看看吧!Google地图怎么设置中文方法1、点击打开谷歌地...

谷歌地图说这里能过

来源:日本沙雕日常谷歌地图说这里能过#微博新鲜事#

谷歌地图已可离线导航 仅安卓机可用

谷歌已经在今年的谷歌IO大会上确认了地图离线导航功能,如今该功能已经可以在安卓机上使用了。这对网络资源较为贫瘠且相对昂贵的国家来说可谓提供了便利。用户需要提前下载所需旅程的部分地图,虽然不能获得实时路...

谷歌地图测试速度更快的AR实时视图

上个月谷歌为了庆祝谷歌地图成立15周年,为谷歌地图推出了新的图标,并且重新设计了移动应用程序。谷歌还预览了一些即将推出的功能,现在正在测试地图导航之外更快的实时视图(LiveView)访问。谷歌之...

谷歌地图新功能 离线地图可导航和搜索

【中关村在线软件资讯】5月29日消息:在今天凌晨召开的GoogleI/O开发者大会上,谷歌公布了一些关于地图的新功能。谷歌地图离线模式新版谷歌地图有更好用的离线地图,可以在无网络的情况下搜索地点、查...

谷歌地图变这样,谁还花钱去旅游?

足不出户,在手机上能身临其境的游览世界各地。文章来源:创下一个新ID:cxygx1作者:创新君编辑:卝生话说在前天的GoogleI/O2022开发人员活动中,谷歌推出了一种全新的地图模式,可以...

新版谷歌地图将添新功能:知道你想去哪儿

据外媒TheVerge报道,谷歌即将为安卓版谷歌地图增加一些新的功能,从而使之变得更加智能,比如可以推算出用户的目的地等。新版谷歌地图将添新功能(图片来自TheVerge)报道称,升级后的谷歌地图将会...

谷歌地图安卓版获效率改进,11.136.x更新引入“表单风格”卡片

IT之家7月16日消息,谷歌在今年2月宣布将对自家地图应用进行大修,目前相关更新已经实装入谷歌地图11.136.x版本中,主要围绕UI进行效率改进。谷歌提到,现在用户在查找地址时,...

谷歌地图安卓/iOS版界面大修,超漂亮

IT之家(www.ithome.com):谷歌地图安卓/iOS版界面大修,超漂亮IT之家报道,Android5.0已经正式到来,谷歌旗下的应用为了迎接安卓5.0都采用了全新的MaterialDes...

谷歌地图在美国启用“美国湾”称呼

参考消息网2月11日报道据法新社2月11日报道,美国总统特朗普10日对谷歌地图将墨西哥湾更名为“美国湾”表示欢迎,这符合他在1月底重返白宫后签署的法令之一。这一占超主导地位的地图服务现在为位于美国的用...

外交部回应谷歌地图涉南海标注:南海一直是国际社会公认通用地名,被广泛接受

【环球时报-环球网报道记者李萌】在4月15日外交部例行记者会上,有记者提问称,据报道,谷歌地图显示了“西菲律宾海”的名称,此前这里显示的是南海。有人称这有助于保护菲律宾的主权,请问中方对此有何评论?...

谷歌地图首曝数据:覆盖全球98%居住区,已拍千万英里街景

12月13日,谷歌透露了其街景车(StreetViewcar)等设备为绘制世界地图所做的工作。目前,谷歌已经捕获了超过1000万英里的街景图像,这个距离相当于绕地球400圈。旗下航空地图服务谷歌地...

美媒:谷歌称,当联邦地图作出更改时,谷歌地图将使用“迪纳利峰”及“墨西哥湾”新名称

来源:环球网【环球网报道】据美国全国广播公司(NBC)等媒体报道,美国谷歌公司27日称,当联邦地图作出更改时,谷歌地图将使用“迪纳利峰”和“墨西哥湾”的新名称,即“麦金利山”和“美国湾”。本月20日...

谷歌地图迎来15周年重大更新 界面重新设计 新增贴心功能

昨日,恰逢谷歌地图15周年生日,谷歌地图便迎来重大更新。不仅仅界面重新设计,还添加了许多贴心功能。名为“TransitAttributes”的新功能会根据过去用户共享的详细信息,向人们提供有关公共场...