🌟 模型的起源:从挑战中绽放的创新火花
在人工智能的广阔海洋中,视觉语言模型(VLM)就像一艘探索未知的潜艇,将图像的视觉信号与文字的语义深度巧妙融合。jina-vlm,这个2.4B参数的小型多语言VLM,便是这片海洋中的一颗璀璨明珠。它诞生于两个棘手难题:一方面,许多VLM在适应视觉后,多语言能力如秋叶般凋零;在英语基准上风光无限,却在其他语言中磕磕绊绊。另一方面,高性能模型往往如巨兽般耗费资源,让研究者和实践者望而却步。jina-vlm的出现,就像一位精明的航海家,巧妙绕过这些礁石,通过SigLIP2视觉编码器与Qwen3语言骨干的联姻,辅以注意力池化连接器,实现了高效的多语言视觉问答(VQA)。这不仅仅是技术堆叠,更是针对实际部署的智慧回应:在2B规模的开源VLM中,它在多语言基准如MMMB和Multilingual MMBench上独领风骚,同时在英语VQA任务中平均得分72.3,傲视群雄。
多语言能力退化:这就好比一个精通英语的翻译家,突然面对法语或中文时手足无措。参考文献强调,这种退化源于视觉适配过程中的不均衡训练,jina-vlm通过显式融入多语言数据,避免了这一陷阱,确保从自然场景到文档理解的跨语种稳健性。论文的核心论点从引言铺开:VLM架构源于PaLI的设计,视觉Transformer(ViT)提取补丁级表示,与语言模型无缝对接。但jina-vlm不满足于此,它引入重叠平铺和注意力池化,处理任意分辨率图像时如鱼得水。想想那些高分辨率文档或图表,如果简单缩放,就像把一幅精美油画揉成纸团,细节尽失。jina-vlm的策略则像一位细心的拼图高手,将图像拆分成重叠瓦片,加上全局缩略图,确保大局观与局部精致并存。
🔍 架构的秘密蓝图:连接视觉与语言的桥梁
深入jina-vlm的内部,就像拆解一台精密仪器。视觉编码器SigLIP2-So400M/14-384是一个27层ViT,处理378×378像素输入,生成27×27的14×14补丁网格。为了适应任意大小图像,模型采用重叠平铺:默认12个瓦片加一个全局缩略图,每个瓦片重叠112像素,步幅266像素。这样,一个4×3网格能覆盖1176×910像素,超出部分则智能下采样。推理时瓦片数可增,内存线性扩展,避免了传统ViT的固定分辨率枷锁。
连接器是这座桥梁的核心。它不取最终ViT输出,而是从第三倒数层(层24)和第九倒数层(层18)串联特征,捕捉从低级空间细节到高级语义的梯度。接着,应用2×2注意力池化:以邻域均值作为查询,压缩token数4倍,同时保留空间结构。最后,通过SwiGLU投影映射到语言模型维度。
参考文献中的Figure 1展示了这一流程,这里我们将其转换为描述性列表,便于直观理解:
这里,$\mathbf{H}^{(\ell)}$ 是ViT层$\ell$的隐藏状态,N是补丁数,dv是视觉隐藏维度。负索引从最终层倒数,-3和-9分别捕捉高级和中级特征,就像一层薄雾下的山峦,层层叠加揭示全貌。
然后,查询向量:
Ni是2×2邻域的四个补丁,qi如邻居间的平均意见,代表局部共识。
注意力池化:
$d_k = d_v,W_Q、W_K、W_V、W_O$ 是可学习权重。这公式像一个民主投票系统,查询引导关键特征浮出水面,压缩冗余。
最终投影:
Swish(x) = x · σ(x),⊙是逐元素乘法,W1、W2、W3参数化非线性变换,确保视觉信号顺滑融入语言空间。
语言解码器基于Qwen3-1.7B-Base,添加特殊token如
注意力池化效率:这就好比城市交通优化,原本拥堵的token大道,通过智能分流减至1/4。参考文献表格1显示:无池化9,477 token,池化后2,366;LLM预填充FLOPs从27.2 TFLOPs降至6.9 TFLOPs,KV缓存内存从2.12 GB减至0.53 GB,整体减4倍。基于此,我们进一步探索训练过程,如何将这些组件锻造成一台高效机器。
🚀 训练的炼金术:从对齐到指令微调的渐进之旅
训练如炼金,将原料数据转化为黄金性能。jina-vlm采用两阶段全参数更新:第一阶段对齐,焦点在跨语言语义 grounding,使用PixmoCap和PangeaIns等字幕数据集,覆盖自然场景、文档和图表。加入15%纯文本数据(PleiAS/common corpus),防止文本能力衰退。连接器学习率更高(2e-4 vs. 视觉6e-6、LLM 2e-5),暖启动短,确保快速适应。
第二阶段指令微调,针对VQA和推理,使用LLaVA OneVision、Cauldron等集合,加上纯文本指令(Singh et al., 2024)。混合覆盖学术VQA、OCR、数学等。初始30K步单源批次,稳定异构数据;后30K步混合批次,提升泛化。
总体数据:5M多模态样本+12B多语言文本(30+语言,英语占半)。超参数表格如下Markdown转换:
| 超参数 | 预训练 | 微调 |
|---|---|---|
| 暖启动 ViT | 10% | 10% |
| 暖启动 Con. | 1% | 10% |
| 暖启动 LLM | 10% | 10% |
| LR ViT | 6e-6 | 5e-6 |
| LR Con. | 2e-4 | 5e-6 |
| LR LLM | 2e-5 | 1e-5 |
| Cosine Decay | 0.1 | 0.1 |
| Eps. | 1e-6 | 1e-6 |
| Betas | 0.9, 0.95 | 0.9, 0.95 |
| 批大小 | 128 | 256 |
| 步数 | 25K | 60K |
| 样本 | 3.2M | 15.3M |
| Token | 10B | 37B |
| GPU小时 | 296 | 1,000 |
这一设计像厨师的秘方,平衡多模态与文本,缓解视觉适配的“灾难性遗忘”。结果?模型在文本基准上保留大部分能力,仅MMLU-Pro有所下降(46.4→30.3),因指令偏向简洁视觉响应。
📊 评估的竞技场:基准测试中的王者风范
评估如奥运赛场,jina-vlm在多领域脱颖而出。在通用VQA,覆盖AI2D(图表)、ChartQA(图表)、TextVQA(场景文本)等八基准,平均72.3,高于Qwen3-VL-2B的71.6。特别在图表解读和文本提取上,如OCR Bench得分778,展示细粒度能力。
表格3转换:
| 模型 | AI2D | ChartQA | TextVQA | DocVQA | InfoVQA | OCRBench | SEED-2 Plus | CharXiv (RQ/DQ) | 整体 |
|---|---|---|---|---|---|---|---|---|---|
| jina-vlm | 82.0 | 81.9 | 83.2 | 90.6 | 71.6 | 778 | 67.2 | 32.3/63.5 | 72.3 |
| Qwen2-VL-2B | 74.7 | 73.5 | 79.7 | 89.2* | 64.0* | 809 | 62.4 | 23.3/55.0* | 66.4 |
| Qwen3-VL-2B | 76.9 | 77.2 | 79.5 | 92.3* | 71.9* | 858 | 67.3* | 28.8/62.3 | 71.6 |
| InternVL3-2B | 78.6 | 80.2 | 77.0 | 87.4* | 67.1* | 835 | 64.6 | 28.3/54.7 | 69.2 |
| InternVL3.5-2B | 78.8 | 80.7 | 76.5 | 88.5* | 69.3* | 836 | 68.0 | 31.6/65.0 | 71.6 |
多图像推理中,得分47.3,受限于训练数据,但幻觉控制佳,POPE 90.3最高。表格5:
| 模型 | BLINK | MuirBench | MMT-Bench | 整体 (MI) | HallBench | POPE | 整体 (Hall) |
|---|---|---|---|---|---|---|---|
| jina-vlm | 50.1 | 34.7 | 57.2 | 47.3 | 39.1 | 90.3 | 64.7 |
| Qwen2-VL-2B | 44.4 | 25.5* | 55.1 | 41.7 | 41.7 | 87.9* | 64.8 |
| Qwen3-VL-2B | 53.8 | 47.4 | 60.0* | 53.7 | 44.5 | 88.9* | 66.7 |
| InternVL3-2B | 50.3 | 38.8 | 59.5 | 49.5 | 42.5 | 89.6 | 66.1 |
| InternVL3.5-2B | 51.3 | 44.0 | 58.5 | 51.3 | 48.6 | 87.2 | 67.9 |
数学推理上,整体33.1,与InternVL3-2B相当。表格6:
| 模型 | MMMU | MathVista | MathVision | MathVerse | WeMath | LogicVista | 整体 |
|---|---|---|---|---|---|---|---|
| jina-vlm | 45.6 | 59.5 | 19.2 | 23.9 | 17.1 | 33.3 | 33.1 |
| Qwen2-VL-2B | 41.1 | 43.0 | 12.4 | 17.3* | 10.9* | 27.3* | 25.3 |
| Qwen3-VL-2B | 53.4 | 61.3 | 31.6 | 22.7* | 28.0* | 35.4* | 38.7 |
| InternVL3-2B | 48.6 | 57.0 | 21.7 | 25.3 | 22.4 | 36.9 | 35.3 |
| InternVL3.5-2B | 59.0 | 71.8/61.5† | 42.8/26.5† | 53.4/35.3† | 48.5/19.1† | 47.7/41.4† | 50.7 |
文本基准,表格7:
| 模型 | MMLU | MMLU-Pro | GSM-8k | ARC-C | HellaSwag | 整体 |
|---|---|---|---|---|---|---|
| jina-vlm | 56.1 | 30.3 | 71.3 | 77.3 | 59.4 | 58.9 |
| Qwen3-1.7B | 62.6 | 46.4 | 75.3 | 73.4 | 59.0 | 63.3 |
多语言理解冠绝2B规模:MMMB 78.8,Multilingual MMBench 74.3。表格8(基于参考,但未全列,扩展描述):jina-vlm在MTVQA等上领先,证明多语言数据融入的功效。
🌈 多语言的彩虹桥:跨越文化边界的视觉对话
jina-vlm的多语言能力如一座彩虹桥,连接英语霸权下的视觉世界与全球多样语种。传统小VLM在非英语上如迷路孩童,jina-vlm则通过训练中30+语言的均衡混合,实现了跨语种稳健。基准显示:在MMMB上78.8,涵盖多文化场景;Multilingual MMBench 74.3,测试从中文到西班牙语的VQA。MTVQA上,它处理多语文本提取如行云流水。
这一成就源于数据策略:PangeaIns提供39语言指令,Yue et al. (2025)贡献多语字幕。比喻来说,就像一个环球旅行者,不仅会说英语,还能用当地俚语解读街头海报,避免了“英语中心主义”的尴尬。
然而,局限性如桥下的阴影:多瓦片处理耗费计算,高分辨率时开销增大;平铺可能碎片化全局空间,影响计数或跨界推理。全局缩略图缓解,但本土分辨率方法或更优。安全对齐和多图像训练不足,是未来航向。
🔮 未来的星辰大海:小模型的无限可能
jina-vlm的故事如一曲交响,从架构的精密到训练的平衡,再到评估的辉煌,证明小型VLM能以高效姿态征服多语言视觉谜题。它不只是工具,更是AI民主化的先锋,让资源有限者也能触及前沿。通过注意力池化减token 4x,并保留文本性能,模型平衡了效率与能力。展望前路,更高效分辨率处理、空间任务优化,以及大规模转移,将点亮更多星辰。
还没有人回复