首页 AI开发平台 Hivemind:去中心化深度学习框架,用全球电脑一起训练大模型

Hivemind:去中心化深度学习框架,用全球电脑一起训练大模型

📅 2026/6/15 👁 阅读 3 🔗 工具访问 1 次
Hivemind:去中心化深度学习框架,用全球电脑一起训练大模型

工具地址

https://github.com/learning-at-home/hivemind

🚀 访问工具

大模型越做越大,训练成本也越来越离谱。训练一次 GPT-4 之类的模型,电费就够买一套房了。普通人别说训练,就是想微调一个 70B 的模型,单卡 80G A100 也塞不下。

那换个思路:把模型拆开,让全世界成千上万台电脑一起跑,行不行?

Hivemind 干的就是这件事。它不是一个模型,而是一个框架——一个让 PyTorch 模型在互联网上做去中心化训练的框架。

Hivemind 去中心化深度学习框架封面

Hivemind 是什么

Hivemind 是一个基于 PyTorch 的去中心化深度学习库,由 Yandex/HSE 的 Max Ryabinin 团队开发。你可以把它理解成 AI 训练界的「BT 下载」——没有中央服务器,所有参与者对等连接,每个人贡献一部分算力,一起训练同一个模型。

项目 2020 年开源,2.4K+ GitHub Stars,MIT 协议。论文发在 NeurIPS 2020,后续还有多篇顶会论文跟进。概念挺炸的:用上千台来自不同大学、公司甚至个人志愿者的电脑,协同训练一个超大模型。

GitHub:github.com/learning-at-home/hivemind

核心设计

无主节点架构

传统分布式训练(比如 DeepSpeed、PyTorch DDP)需要一个主节点做梯度聚合和参数同步。Hivemind 不要主节点。它用分布式哈希表(DHT)做节点发现,每个节点平等,谁都可以加入,谁都可以离开。网络自组自愈。

容错反向传播

去中心化训练最大的挑战:节点不可靠。有人关机了,有人网络断了一下,怎么办?Hivemind 做了容错设计,前向和反向传播过程中,某个节点没响应,自动跳过或等它重试。不会因为一个节点掉线就让整个训练卡住。

去中心化 MoE

混合专家模型(Mixture-of-Experts)天然适合去中心化——不同 expert 可以放在不同节点上。Hivemind 做了 Decentralized MoE 的原生支持,把模型的不同层分布到不同志愿者节点上。一个 1 万亿参数的模型,你不需要一台机器装下它——每个人只装一小块。

Moshpit SGD

参数怎么同步?Hivemind 用 Moshpit SGD 这个算法:节点间两两异步交换梯度,逐步收敛到全局共识。不需要每轮等所有节点都算完——这在大规模跨互联网场景下不现实。

代表项目:Petals

Hivemind 最有名的应用是 Petals——一个去中心化的 BLOOM-176B / Llama 推理和微调平台。你用自己电脑连接网络,就能拿到 100B+ 模型的部分层进行计算。想做推理?你的请求被路由到存有对应层的节点。想微调?分布式反向传播自动走通。

Petals 在 GitHub 上有 9K+ Stars,是去中心化 LLM 推理的标杆项目。

怎么用

pip install hivemind

# 启动一个 Hivemind 节点,加入 DHT 网络
python -c "
import hivemind
dht = hivemind.DHT(start=True)
print(f'Node ID: {dht.node_id}')
"

接入现有网络后,就可以做分布式训练了。Hivemind 还提供了 PyTorch Lightning 集成,Trainer(strategy='hivemind') 就能跑。

优缺点

优点:

缺点:

一句话总结

Hivemind 是去中心化深度学习领域最前卫的开源探索。虽然目前在实际工程中还没法替代 DeepSpeed,但它的方向很有意思——用众包的力量打破算力垄断。如果你在做联邦学习、分布式训练或者纯粹对去中心化 ML 感兴趣,这个项目值得研究。

GitHub:github.com/learning-at-home/hivemind

标签:#Hivemind #去中心化训练 #分布式深度学习 #PyTorch #MoE #Petals #志愿者计算 #机器学习


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫