FleetX
latest

分布式训练概述

  • 整体介绍与内容概览

如何设计分布式训练的搭建方案

  • 公有云配置
  • Docker 镜像
  • Kubernetes 部署
  • 安装Paddle

前置基础配置

  • 优化算法

配置分布式训练

  • Collective训练
    • 1. 快速开始
    • 2. 性能基准
    • 3. 设计综述
    • 4. 性能优化
    • 5. 大模型训练优化
    • 6. 二次开发
    • 7. 整体示例
  • ParameterServer训练

高阶内容

  • 服务型弹性蒸馏训练
  • 自监督训练
  • 弹性训练
  • FleetX扩展工具包

分布式训练FAQ

  • FAQ
FleetX
  • Docs »
  • Collective训练
  • Edit on GitHub

Collective训练¶

Collective多卡分布式训练¶

  • 1. 快速开始
    • 1.1. Collective训练快速开始
    • 1.2. 版本要求
    • 1.3. 操作方法
    • 1.4. 运行示例
  • 2. 性能基准
  • 3. 设计综述
    • 3.1. 背景
    • 3.2. 性能优化
    • 3.3. 参考资料
  • 4. 性能优化
    • 4.1. OP融合(计算,通信)
    • 4.2. 通信重叠
    • 4.3. 通信拓扑优化
    • 4.4. 通信频率优化
    • 4.5. 自动混合精度
    • 4.6. NV Dali Reader
    • 4.7. 其他(调节资源的配比、增大bs等)
  • 5. 大模型训练优化
    • 5.1. Forward Recomputation Backpropagation
    • 5.2. Gradient Merge
    • 5.3. 使用LARS / LAMB 优化分布式超大batch 训练
    • 5.4. 飞桨大规模分类库使用介绍
    • 5.5. 使用Sharding 训练超大模型
    • 5.6. 流水线并行
    • 5.7. 飞桨4D混合并行训练使用指南
  • 6. 二次开发
  • 7. 整体示例
Next Previous

© Copyright 2020, PaddlePaddle Revision d89a4724.

Built with Sphinx using a theme provided by Read the Docs.