【MoE 论文 其二】GShard
首次在Transformer中引入MoE架构的研究
Scaling Giant Models with Conditional Computation and Automatic Sharding
600b parameters model be trained on 2048 TPU v3 accelerators in 4 days
首次推出600b的大模型(deepseek-v3 671b,虽然架构有些不同),但在当时没受到多少关注
文章重点在分布式并行训练框架上(google经典推自己框架)
当时在pytorch、tensorflow 都没有实现 分布式并行训练
规模化训练的实际挑战
与当时主流观点一致,google认为大模型越大效果越好,当然在cv、nlp领域的研究也是论证了这个观点。
而扩大模型规模,伴随而来的挑战,最主要的一个就是训练效率的问题。
- 模型并行支持不足
- 早期工作仅支持粗粒度并行,未解决顺序依赖和设备闲置问题
- 部分专用框架需要定制开发
- 模型规模与计算成本的超线性增长
- 因为顺序依赖性,导致任务分配不均匀,不能通过单纯增加设备解决
- 巨型模型表示的
基础设施
扩展性瓶颈- 当时有这种规模的基础设施的服务商也就亚马逊和Google自己,(现在倒是多了)
- 分区策略的实现复杂度高
- 不同算子(如矩阵乘法与数据重排)需要不同的通信模式,需针对性优化。