现在,这项研究背后更多细节被公开了!来自Karpathy与真正作者两年前的邮件往来,引起了很多讨论。 一作Dzmitry Bahdanau,当时是Bengio实验室的一位实习生,在实习只剩5周时灵光一现提出了一个简化方案,相当于实现了对角注意力。
一作Dzmitry Bahdanau,当时是Bengio实验室的一位实习生,在实习只剩5周时灵光一现提出了一个简化方案,相当于实现了对角注意力。 Pytorch等经典代码中,正是把注意力称为Bahdanau Attention,还保留着他贡献的痕迹。