【MoE 论文 其二】GShard

13 天前(已编辑)
/ ,

阅读此文章之前,你可能需要首先阅读以下的文章才能更好的理解上下文。

【MoE 论文 其二】GShard

首次在Transformer中引入MoE架构的研究

Scaling Giant Models with Conditional Computation and Automatic Sharding

600b parameters model be trained on 2048 TPU v3 accelerators in 4 days
首次推出600b的大模型(deepseek-v3 671b,虽然架构有些不同),但在当时没受到多少关注
文章重点在分布式并行训练框架上(google经典推自己框架) 当时在pytorch、tensorflow 都没有实现 分布式并行训练

规模化训练的实际挑战

与当时主流观点一致,google认为大模型越大效果越好,当然在cv、nlp领域的研究也是论证了这个观点。
而扩大模型规模,伴随而来的挑战,最主要的一个就是训练效率的问题。

  1. 模型并行支持不足
    • 早期工作仅支持粗粒度并行,未解决顺序依赖和设备闲置问题
    • 部分专用框架需要定制开发
  2. 模型规模与计算成本的超线性增长
    • 因为顺序依赖性,导致任务分配不均匀,不能通过单纯增加设备解决
  3. 巨型模型表示的基础设施扩展性瓶颈
    • 当时有这种规模的基础设施的服务商也就亚马逊和Google自己,(现在倒是多了)
  4. 分区策略的实现复杂度高
    • 不同算子(如矩阵乘法与数据重排)需要不同的通信模式,需针对性优化。

使用社交账号登录

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...