前作中,SparseMixer的有效性在神经机器翻译任务和ELECTRA语言模型训练中得到了证明。 而在GRIN MoE的开发过程中,SparseMixer-v2终于有机会大规模应用于自回归语言模型训练。 作者用2.5T token训练了两个16×0 ...