还可以去读dennybritz大牛的博客:Implementing a CNN for Text Classification in TensorFlow 以及字符级CNN的论文:Character-level Convolutional Networks for Text Classification ...
最近,一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。 由此产生的混合模型包含四分之一的注意力层 ...