nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。 传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。 这种几何结构有助于 ...