
Вольный пересказ разбора c дополнениями от себя. Сначала про то какие есть фишки которые используются для стабильного трейна, потом уже про то зачем они и какие проблемы решают.

[2211.01848] Новая SOTA от DeepMind в мире рекурренток. До этого 4 года в топах бенчмарков держался Mogrifier LSTM. Речь идёт о бенчмарках Penn Treebank, WikiText2 где модели сравниваются обучаясь end2end на этих датасетах, без дополнительных данных.