大语言模型(LLM)的自训练(self-training),是验证 Scaling Law 能否继续奏效的关键方法之一。 然而,由于 「错误或无用的中间奖励信号」 ,现有自 ...
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFl ...