BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式

2024年末,智源研究院联合多所高校发布了BGE-VL多模态向量模型。这是BGE系列在多模态领域的重要扩展,也是当前多模态检索任务的最新SOTA方案。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

背景:多模态检索的瓶颈与突破点

传统多模态检索依赖单一形式的跨模态配对数据,如图像-文本对。这种训练范式存在根本性局限:模型难以理解复杂的组合模态输入。当用户拍摄一张汽车外观图并希望获取该车型的详细参数时,现有模型往往力不从心。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

指令微调技术在文本检索和大语言模型领域已证明其增强多任务能力的有效性。但多模态检索领域面临的核心问题是:高质量指令数据集依赖人工标注,难以大规模获取。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

方法:MegaPairs的两阶段构造流水线

MegaPairs数据合成方法解决了上述问题。其构造流程分为两个关键阶段。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

第一阶段使用多种相似度模型从图像数据集中挖掘多样的图像对。相似度计算涵盖视觉特征、语义特征等多个维度,确保挖掘出的图像对具有丰富的关联关系,如同款汽车的外饰与内饰、不同涂装版本、品牌概念图等。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

第二阶段采用两阶段标注方法合成检索指令。首先使用多模态大语言模型总结两张图片之间的关联关系,然后使用大语言模型撰写最终的开放域检索指令。整个过程完全基于开源数据集和开源模型构建,无需人工参与。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

核心优势:数据效率的量级提升

MegaPairs的关键突破在于数据效率。与GoogleMagicLens在37M闭源数据上训练的模型相比,MegaPairs仅需0.5M数据规模(约1/70)即可实现显著的性能优势。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

这一成果的深层原因在于合成数据的高质量与多样化。通过引入多个相似度模型和两阶段标注方法,MegaPairs能够在无需人工参与的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。 BGE-VL技术解析:MegaPairs如何用合成数据重塑多模态检索范式 IT技术

实验验证:BGE-VL的性能表现

基于MegaPairs合成数据,团队训练了三款不同尺寸的模型:BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。在MMEB综合基准测试中,BGE-VL在零样本条件下实现多个任务类型的最优性能。

更值得关注的是泛化能力。MegaPairs并未包含MMEB中的Classification、VQA、Grounding等任务类型数据,但模型展现出良好的任务泛化能力。在有监督微调实验中,BGE-VL平均性能指标相比VLM2Vec高出9.1个百分点,分布外数据集表现分别提升11.6%和7.1%。

在CIRCO组合图像检索评测集上,BGE-VL-MLLM较之前SOTA模型提升8.1个百分点。BGE-VL-Base模型以不到1/50的参数量超越了MM-Embed和E5-V等大模型底座的检索器。

可扩展性验证

实验数据显示,随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。这为未来更大规模数据合成奠定了基础。

应用前景

MegaPairs的成功证明了一个核心观点:在多模态检索领域,数据质量比数据数量更重要。通过智能的合成方法,可以用更少的数据训练出更强的模型。这为多模态检索技术的发展提供了新的方向。