一句话:开源 AI 实验室 Zyphra 放出 Zamba2-VL——一组 1.2B / 2.7B / 7B 参数的"看图问答"(视觉语言)小模型,用 Mamba2 状态空间架构把"看到图后开口回答的等待时间"(首字延迟)压到同级 Transformer 模型的约十分之一,权重以 Apache 2.0 全部开放。技术报告 5 月底放出、本周(6 月 12 日前后)随权重与媒体报道集中进入视野,这里把它当作一个近期、可核验的技术话题来深读,而非当日新发布。
它优化的是"看图要等多久",不是"看得多准"。 当你把一张照片或文档丢给一个多模态模型问问题,模型得先把整张图和你的提问"读进去"(业内叫 prefill),才会吐出第一个字。图越大、上下文越长,这段静默就越久——这就是 time-to-first-token(首字延迟,TTFT)。Zamba2-VL 的核心卖点正是把这段静默压短:官方称在 32k token 的长上下文下,它的首字延迟比同尺寸 Transformer 模型低约一个数量级。请先记住一个边界:这是首字延迟,不是总生成速度,更不是回答的准确率。
为什么能快:把"读图"从二次方拉成线性。 Transformer 的注意力机制开销随上下文长度二次方增长,长文档、多图输入最吃亏。Zamba2-VL 的主干换成 Mamba2 状态空间层(SSM),以线性时间吞下长上下文,只在少量"共享 Transformer 块"里保留注意力做 in-context 检索;视觉编码器则沿用成熟的 Qwen2.5-VL ViT,再经一个两层 MLP 接到语言主干。所以它的"快"主要快在长输入的吞入阶段——上下文越长,省得越多。
小身板能干的活:文档、图表、计数。 1.2B / 2.7B 这种尺寸的意义在于能塞进边缘设备。技术报告里,2.7B 版在文档问答 DocVQA 拿到 90.9、OCRBench 73.6、视觉计数基准 PixMoCount 82.5;7B 版 DocVQA 92.9、图示理解 AI2D 90.6、TextVQA 81.0。对做产品的人,这意味着扫描件抽取、报表读数、票据 OCR、UI 截图理解这类"结构化看图"任务,有机会用一个能本地跑、首字响应快的小模型兜住,而不必每次都打到云端大模型。
别被"数量级"和"SOTA"带跑。 三处要主动打折扣。其一,“快一个数量级"是首字延迟、且要在 32k 这种长上下文里才显著;你只是发一句短提问、配一张小图时,差距远没这么夸张。其二,所谓"SOTA"是"同尺寸开源模型里"的领先,不是对标 GPT、Gemini 这类前沿大模型——在考学科知识与复杂推理的 MMMU 上,2.7B 版只有 37.7,明显低于更大模型的约 50 分,知识密度和深推理仍是小模型的硬短板。其三,“端侧/边缘"带星号:那套提速依赖 CUDA 优化算子,纯 CPU 推理依然慢,作者自己也把它定位为"研究产物”,离"装进手机开箱即用"还有距离。
对用户、对同行分别意味着什么。 对做产品的人:如果你的场景就是"对着图或文档快速问答”,且能接受同级小模型的精度天花板,这是一个商用友好(Apache 2.0)、可私有化部署、首字响应快的现成选项,值得拿自己的真实数据测一测"延迟—准确率"的平衡点,而不是只看榜单。对做影像/ISP 的同行:真正的信号不在某一个分数,而在架构路线——把状态空间模型用进多模态、用线性 prefill 换掉注意力的二次方成本,正从纯语言模型外溢到"看图"这一侧。当端侧 VLM 的延迟门槛被压下来,“拍完即问图”——在相机或手机里直接追问这张照片为什么偏色、要不要补光——这类交互才第一次具备工程上的可能性。
来源与核验
- 一手源:
- Zyphra 官方项目页《Zamba2-VL》:https://www.zyphra.com/our-work/zamba2-vl
- 技术报告 Zamba2-VL Technical Report,arXiv:2606.00390(Submitted on 29 May 2026):https://arxiv.org/abs/2606.00390
- 开源权重(Apache 2.0)HuggingFace:https://huggingface.co/Zyphra/Zamba2-VL-7B
- 独立佐证:MarkTechPost 报道(2026-06-12):https://www.marktechpost.com/2026/06/12/zyphra-release-zamba2-vl-hybrid-mamba2-transformer-vision-language-models-that-cut-time-to-first-token-by-about-an-order-of-magnitude/。关键事实(1.2B/2.7B/7B 三档、Mamba2+共享 Transformer 混合架构、约 10× 首字延迟、Apache 2.0、DocVQA 2.7B=90.9)与一手源一致,并独立点出 MMMU/MathVista 落后于更大模型、优化算子需 CUDA、“研究产物"等同向 caveat。
- 核验结论:硬指标(模型尺寸、混合架构、首字延迟量级、license、各项 benchmark 分数)均可追溯到 Zyphra 官方页与 arXiv 技术报告原文表格,HuggingFace 权重佐证模型确已开放,MarkTechPost 独立报道与一手源无矛盾。需说明的时间线:技术报告 2026-05-29 提交、约 6 月 12 日随权重公开与媒体报道集中曝光,故本文按"近期、可核验技术话题"深读,并非 36 小时内的全新发布。verdict:✅ 一手溯源 · 多源一致。
