Bonsai Image 4B：把 FLUX 压缩到不到 1GB，iPhone 上本地跑 AI 生图

Bonsai Image 4B：把 FLUX 压缩到不到 1GB，iPhone 上本地跑 AI 生图的时代来了

FLUX 系列的生图质量没话说，但那个体积 —— 7.75GB 的 diffusion transformer，加上文本编码器和 VAE，整个部署包接近 16GB。跑在云端没问题，想塞进手机？想都别想。

直到上周 PrismML 放出 Bonsai Image 4B。

他们把 FLUX.2 Klein 4B 的权重做成了 1-bit 和 ternary（三值）量化。不是常见的 INT8 或 FP8，而是直接压到每个权重只用 1 个 bit —— 只有 −1 和 +1 两个值。

结果呢？

你没看错。从 16GB 压到 3.4GB。而且它在 iPhone 17 Pro Max 上跑起来了。

这是最让我意外的地方。按说压到 1-bit 应该糊成一团才对，但他们的结果还不错：

模型	体积	GenEval	HPSv3	DPG-Bench	相对 FLUX
FLUX.2 Klein 4B	7.75GB	0.819	12.84	0.853	100%
Ternary Bonsai	1.21GB	0.723	12.22	0.851	95%
1-bit Bonsai	0.93GB	0.671	11.15	0.822	88%
SDXL	5.14GB	0.3	10.05	0.74	67%

Ternary 版保留了原版 FLUX 95% 的 benchmark 分数。1-bit 版也有 88%。对比 SDXL 那种级别（只有 67%），这完全不是一个次元的东西。

而且关键在这：跑在 iPhone 上。生成一张 512×512 的图只要 9.4 秒。Mac M4 Pro 上约 6 秒，比原版 FLUX 快 5.6 倍。

注意，这不只是"慢一点也能用"的问题。原版 FLUX 在 iPhone 上根本跑不了 —— 15.97GB 的部署包，手机内存直接炸了。Bonsai 是第一个能在 iPhone 上本地运行的 4B 级图像模型。

说实话，AI 生图一直有个尴尬 —— 大部分人都得联网用。Midjourney、DALL·E、甚至 FLUX 的各种在线版，每次生成都是发请求到云端等结果。

本地生成意味着什么？

PrismML 官方博客说得挺实在：生图是天然的迭代过程，很少有人一步到位。云端的每一次请求都有成本和延迟，本地跑就没有这个心理负担。随便改 prompt 随便试，反正不花钱。

模型和代码 Apache 2.0 开源。已经上架了 iOS App（Bonsai Studio），可以直接在 iPhone 上体验。

PrismML 这个团队背景也不错 —— 加州理工出来的，拿了 Khosla Ventures、Cerberus 和 Google 的投资。之前的主力产品是 Bonsai 语言模型（也是做 1-bit 量化的），这次把同样的技术用在图像模型上，算是把自家技术栈延展到另一个领域了。

Bonsai Image 4B 让我意识到一件事：模型量化的天花板比我想象的高得多。

1-bit 量化以前基本是个学术概念，大家觉得压到 4-bit（GPTQ/AWQ）就差不多了，再低质量崩得没法用。结果 PrismML 用 1-bit 做到了 88% 的保真度，而且是真的能跑在手机上。

当然也有局限性。512×512 的生成尺寸偏小，9.4 秒也不算快（云端 FLUX 几秒出图）。但这是第一代产品，后续优化空间很大。

如果你手里有 iPhone 17 Pro Max（或者 Mac M4），去 App Store 搜 Bonsai Studio 试试。不用联网、不花钱、纯本地跑 AI 生图 —— 这个体验本身就已经很酷了。