Hivemind：去中心化深度学习框架，用全球电脑一起训练大模型

大模型越做越大，训练成本也越来越离谱。训练一次 GPT-4 之类的模型，电费就够买一套房了。普通人别说训练，就是想微调一个 70B 的模型，单卡 80G A100 也塞不下。

那换个思路：把模型拆开，让全世界成千上万台电脑一起跑，行不行？

Hivemind 干的就是这件事。它不是一个模型，而是一个框架——一个让 PyTorch 模型在互联网上做去中心化训练的框架。

Hivemind 去中心化深度学习框架封面

Hivemind 是什么

Hivemind 是一个基于 PyTorch 的去中心化深度学习库，由 Yandex/HSE 的 Max Ryabinin 团队开发。你可以把它理解成 AI 训练界的「BT 下载」——没有中央服务器，所有参与者对等连接，每个人贡献一部分算力，一起训练同一个模型。

项目 2020 年开源，2.4K+ GitHub Stars，MIT 协议。论文发在 NeurIPS 2020，后续还有多篇顶会论文跟进。概念挺炸的：用上千台来自不同大学、公司甚至个人志愿者的电脑，协同训练一个超大模型。

传统分布式训练（比如 DeepSpeed、PyTorch DDP）需要一个主节点做梯度聚合和参数同步。Hivemind 不要主节点。它用分布式哈希表（DHT）做节点发现，每个节点平等，谁都可以加入，谁都可以离开。网络自组自愈。

去中心化训练最大的挑战：节点不可靠。有人关机了，有人网络断了一下，怎么办？Hivemind 做了容错设计，前向和反向传播过程中，某个节点没响应，自动跳过或等它重试。不会因为一个节点掉线就让整个训练卡住。

混合专家模型（Mixture-of-Experts）天然适合去中心化——不同 expert 可以放在不同节点上。Hivemind 做了 Decentralized MoE 的原生支持，把模型的不同层分布到不同志愿者节点上。一个 1 万亿参数的模型，你不需要一台机器装下它——每个人只装一小块。

参数怎么同步？Hivemind 用 Moshpit SGD 这个算法：节点间两两异步交换梯度，逐步收敛到全局共识。不需要每轮等所有节点都算完——这在大规模跨互联网场景下不现实。

Hivemind 最有名的应用是 Petals——一个去中心化的 BLOOM-176B / Llama 推理和微调平台。你用自己电脑连接网络，就能拿到 100B+ 模型的部分层进行计算。想做推理？你的请求被路由到存有对应层的节点。想微调？分布式反向传播自动走通。

Petals 在 GitHub 上有 9K+ Stars，是去中心化 LLM 推理的标杆项目。

pip install hivemind

# 启动一个 Hivemind 节点，加入 DHT 网络
python -c "
import hivemind
dht = hivemind.DHT(start=True)
print(f'Node ID: {dht.node_id}')
"

接入现有网络后，就可以做分布式训练了。Hivemind 还提供了 PyTorch Lightning 集成，Trainer(strategy='hivemind') 就能跑。

优点：

缺点：

Hivemind 是去中心化深度学习领域最前卫的开源探索。虽然目前在实际工程中还没法替代 DeepSpeed，但它的方向很有意思——用众包的力量打破算力垄断。如果你在做联邦学习、分布式训练或者纯粹对去中心化 ML 感兴趣，这个项目值得研究。

标签：#Hivemind #去中心化训练 #分布式深度学习 #PyTorch #MoE #Petals #志愿者计算 #机器学习

关注我，每期分享一个帮你省事的强大工具 🛠️