【MoE 论文其二】GShard

首次在Transformer中引入MoE架构的研究

Scaling Giant Models with Conditional Computation and Automatic Sharding

600b parameters model be trained on 2048 TPU v3 accelerators in 4 days
首次推出600b的大模型（deepseek-v3 671b，虽然架构有些不同），但在当时没受到多少关注
文章重点在分布式并行训练框架上（google经典推自己框架）当时在pytorch、tensorflow 都没有实现分布式并行训练

规模化训练的实际挑战

与当时主流观点一致，google认为大模型越大效果越好，当然在cv、nlp领域的研究也是论证了这个观点。
而扩大模型规模，伴随而来的挑战，最主要的一个就是训练效率的问题。

模型并行支持不足
- 早期工作仅支持粗粒度并行，未解决顺序依赖和设备闲置问题
- 部分专用框架需要定制开发
模型规模与计算成本的超线性增长
- 因为顺序依赖性，导致任务分配不均匀，不能通过单纯增加设备解决
巨型模型表示的基础设施扩展性瓶颈
- 当时有这种规模的基础设施的服务商也就亚马逊和Google自己，（现在倒是多了）
分区策略的实现复杂度高
- 不同算子（如矩阵乘法与数据重排）需要不同的通信模式，需针对性优化。

【MoE 论文 其二】GShard

阅读此文章之前，你可能需要首先阅读以下的文章才能更好的理解上下文。

【MoE 论文 其二】GShard

规模化训练的实际挑战

【MoE 论文其二】GShard

【MoE 论文其二】GShard