Bonsai Image 4B:把 FLUX 压缩到不到 1GB,iPhone 上本地跑 AI 生图的时代来了
FLUX 系列的生图质量没话说,但那个体积 —— 7.75GB 的 diffusion transformer,加上文本编码器和 VAE,整个部署包接近 16GB。跑在云端没问题,想塞进手机?想都别想。
直到上周 PrismML 放出 Bonsai Image 4B。
这玩意儿干了件什么事?
他们把 FLUX.2 Klein 4B 的权重做成了 1-bit 和 ternary(三值)量化。不是常见的 INT8 或 FP8,而是直接压到每个权重只用 1 个 bit —— 只有 −1 和 +1 两个值。
结果呢?
- 1-bit 版:diffusion transformer 从 7.75GB 缩到 0.93GB,8.3 倍压缩
- Ternary 版:1.21GB,6.4 倍压缩
- 整个部署包:1-bit 版 3.42GB,ternary 版 3.88GB
- 原版 FLUX:15.97GB
你没看错。从 16GB 压到 3.4GB。而且它在 iPhone 17 Pro Max 上跑起来了。
质量呢?压这么狠还能看吗?
这是最让我意外的地方。按说压到 1-bit 应该糊成一团才对,但他们的结果还不错:
| 模型 | 体积 | GenEval | HPSv3 | DPG-Bench | 相对 FLUX |
| FLUX.2 Klein 4B | 7.75GB | 0.819 | 12.84 | 0.853 | 100% |
| Ternary Bonsai | 1.21GB | 0.723 | 12.22 | 0.851 | 95% |
| 1-bit Bonsai | 0.93GB | 0.671 | 11.15 | 0.822 | 88% |
| SDXL | 5.14GB | 0.3 | 10.05 | 0.74 | 67% |
Ternary 版保留了原版 FLUX 95% 的 benchmark 分数。1-bit 版也有 88%。对比 SDXL 那种级别(只有 67%),这完全不是一个次元的东西。
而且关键在这:跑在 iPhone 上。生成一张 512×512 的图只要 9.4 秒。Mac M4 Pro 上约 6 秒,比原版 FLUX 快 5.6 倍。
注意,这不只是"慢一点也能用"的问题。原版 FLUX 在 iPhone 上根本跑不了 —— 15.97GB 的部署包,手机内存直接炸了。Bonsai 是第一个能在 iPhone 上本地运行的 4B 级图像模型。
为什么这很重要
说实话,AI 生图一直有个尴尬 —— 大部分人都得联网用。Midjourney、DALL·E、甚至 FLUX 的各种在线版,每次生成都是发请求到云端等结果。
本地生成意味着什么?
- 不用联网,地铁上也能画
- 隐私,图不出设备
- 迭代成本为零 —— 改 prompt 再生成,不花钱不排队
- 可以嵌到 App 里当功能,不需要自建推理服务
PrismML 官方博客说得挺实在:生图是天然的迭代过程,很少有人一步到位。云端的每一次请求都有成本和延迟,本地跑就没有这个心理负担。随便改 prompt 随便试,反正不花钱。
怎么用
模型和代码 Apache 2.0 开源。已经上架了 iOS App(Bonsai Studio),可以直接在 iPhone 上体验。
- GitHub:github.com/PrismML-Eng/Bonsai-Image-Demo
- iOS 应用:Bonsai Studio(App Store)
- 平台支持:Apple Silicon(iPhone/iPad/Mac)+ CUDA GPU
- 技术栈:MLX(Apple)+ Gemlite(CUDA)低比特矩阵运算
PrismML 这个团队背景也不错 —— 加州理工出来的,拿了 Khosla Ventures、Cerberus 和 Google 的投资。之前的主力产品是 Bonsai 语言模型(也是做 1-bit 量化的),这次把同样的技术用在图像模型上,算是把自家技术栈延展到另一个领域了。
一些想法
Bonsai Image 4B 让我意识到一件事:模型量化的天花板比我想象的高得多。
1-bit 量化以前基本是个学术概念,大家觉得压到 4-bit(GPTQ/AWQ)就差不多了,再低质量崩得没法用。结果 PrismML 用 1-bit 做到了 88% 的保真度,而且是真的能跑在手机上。
当然也有局限性。512×512 的生成尺寸偏小,9.4 秒也不算快(云端 FLUX 几秒出图)。但这是第一代产品,后续优化空间很大。
如果你手里有 iPhone 17 Pro Max(或者 Mac M4),去 App Store 搜 Bonsai Studio 试试。不用联网、不花钱、纯本地跑 AI 生图 —— 这个体验本身就已经很酷了。