把'看图回答'的等待砍到十分之一：Zyphra Zamba2-VL 用 Mamba2 做端侧看图模型

📷 影像创新 · 2026-06-14 · AI影像 · VLM · 端侧AI · 开源模型 · 计算摄影

来源核验：✅ 一手溯源 · 多源一致

一句话：开源 AI 实验室 Zyphra 放出 Zamba2-VL——一组 1.2B / 2.7B / 7B 参数的"看图问答"（视觉语言）小模型，用 Mamba2 状态空间架构把"看到图后开口回答的等待时间"（首字延迟）压到同级 Transformer 模型的约十分之一，权重以 Apache 2.0 全部开放。技术报告 5 月底放出、本周（6 月 12 日前后）随权重与媒体报道集中进入视野，这里把它当作一个近期、可核验的技术话题来深读，而非当日新发布。

它优化的是"看图要等多久"，不是"看得多准"。 当你把一张照片或文档丢给一个多模态模型问问题，模型得先把整张图和你的提问"读进去"（业内叫 prefill），才会吐出第一个字。图越大、上下文越长，这段静默就越久——这就是 time-to-first-token（首字延迟，TTFT）。Zamba2-VL 的核心卖点正是把这段静默压短：官方称在 32k token 的长上下文下，它的首字延迟比同尺寸 Transformer 模型低约一个数量级。请先记住一个边界：这是首字延迟，不是总生成速度，更不是回答的准确率。

为什么能快：把"读图"从二次方拉成线性。 Transformer 的注意力机制开销随上下文长度二次方增长，长文档、多图输入最吃亏。Zamba2-VL 的主干换成 Mamba2 状态空间层（SSM），以线性时间吞下长上下文，只在少量"共享 Transformer 块"里保留注意力做 in-context 检索；视觉编码器则沿用成熟的 Qwen2.5-VL ViT，再经一个两层 MLP 接到语言主干。所以它的"快"主要快在长输入的吞入阶段——上下文越长，省得越多。

小身板能干的活：文档、图表、计数。 1.2B / 2.7B 这种尺寸的意义在于能塞进边缘设备。技术报告里，2.7B 版在文档问答 DocVQA 拿到 90.9、OCRBench 73.6、视觉计数基准 PixMoCount 82.5；7B 版 DocVQA 92.9、图示理解 AI2D 90.6、TextVQA 81.0。对做产品的人，这意味着扫描件抽取、报表读数、票据 OCR、UI 截图理解这类"结构化看图"任务，有机会用一个能本地跑、首字响应快的小模型兜住，而不必每次都打到云端大模型。

别被"数量级"和"SOTA"带跑。 三处要主动打折扣。其一，“快一个数量级"是首字延迟、且要在 32k 这种长上下文里才显著；你只是发一句短提问、配一张小图时，差距远没这么夸张。其二，所谓"SOTA"是"同尺寸开源模型里"的领先，不是对标 GPT、Gemini 这类前沿大模型——在考学科知识与复杂推理的 MMMU 上，2.7B 版只有 37.7，明显低于更大模型的约 50 分，知识密度和深推理仍是小模型的硬短板。其三，“端侧/边缘"带星号：那套提速依赖 CUDA 优化算子，纯 CPU 推理依然慢，作者自己也把它定位为"研究产物”，离"装进手机开箱即用"还有距离。

对用户、对同行分别意味着什么。 对做产品的人：如果你的场景就是"对着图或文档快速问答”，且能接受同级小模型的精度天花板，这是一个商用友好（Apache 2.0）、可私有化部署、首字响应快的现成选项，值得拿自己的真实数据测一测"延迟—准确率"的平衡点，而不是只看榜单。对做影像/ISP 的同行：真正的信号不在某一个分数，而在架构路线——把状态空间模型用进多模态、用线性 prefill 换掉注意力的二次方成本，正从纯语言模型外溢到"看图"这一侧。当端侧 VLM 的延迟门槛被压下来，“拍完即问图”——在相机或手机里直接追问这张照片为什么偏色、要不要补光——这类交互才第一次具备工程上的可能性。

来源与核验

一手源：
- Zyphra 官方项目页《Zamba2-VL》：https://www.zyphra.com/our-work/zamba2-vl
- 技术报告 Zamba2-VL Technical Report，arXiv:2606.00390（Submitted on 29 May 2026）：https://arxiv.org/abs/2606.00390
- 开源权重（Apache 2.0）HuggingFace：https://huggingface.co/Zyphra/Zamba2-VL-7B
独立佐证：MarkTechPost 报道（2026-06-12）：https://www.marktechpost.com/2026/06/12/zyphra-release-zamba2-vl-hybrid-mamba2-transformer-vision-language-models-that-cut-time-to-first-token-by-about-an-order-of-magnitude/。关键事实（1.2B/2.7B/7B 三档、Mamba2+共享 Transformer 混合架构、约 10× 首字延迟、Apache 2.0、DocVQA 2.7B=90.9）与一手源一致，并独立点出 MMMU/MathVista 落后于更大模型、优化算子需 CUDA、“研究产物"等同向 caveat。
核验结论：硬指标（模型尺寸、混合架构、首字延迟量级、license、各项 benchmark 分数）均可追溯到 Zyphra 官方页与 arXiv 技术报告原文表格，HuggingFace 权重佐证模型确已开放，MarkTechPost 独立报道与一手源无矛盾。需说明的时间线：技术报告 2026-05-29 提交、约 6 月 12 日随权重公开与媒体报道集中曝光，故本文按"近期、可核验技术话题"深读，并非 36 小时内的全新发布。verdict：✅ 一手溯源 · 多源一致。

一手来源：官方原文 ↗

← 返回影像创新