Synthesizer-attention

A Pytorch implementation of Dense Synthesizer attention and Random Synthesizer attention.

Reference

[1] Tay, Yi, et al. "Synthesizer: Rethinking Self-Attention in Transformer Models." arXiv preprint arXiv:2005.00743 (2020).