谷歌开源 GPipe,训练更大模型、不调整超参扩展性能

谷歌开源了一个分布式机器学习库GPipe,这是一个用于高效训练大规模神经网络模型的库。

GPipe使用同步随机梯度下降和管道并行进行训练,适用于由多个连续层组成的任何DNN。重要的是,GPipe允许研究人员轻松部署更多加速器来训练更大的模型,并在不调整超参数的情况下扩展性能。
开发团队在GoogleCloudTPUv2s上训练了AmoebaNet-B,其具有5.57亿个模型参数和480×48