解説 - XLNet: Generalized Autoregressive Pretraining for Language Understanding

元論文 https://papers.nips.cc/paper/8812-xlnet-generalized-autoregressive-pretraining-for-language-understanding.pdf

事前学習モデル XLNet を提案. Fine-tuning により SQuAD や GLUE などの 20 タスクで BERT (さらには RoBERTa) を上回った.

BERT の事前学習 (Masked Language Modeling objective) の問題点として,
[MASK] されたトークン間での独立性の仮定 や [MASK] の導入による事前学習と fine-tuning の不一致が挙げられる.

これらを解決するために Permutation Language Modeling objective が導入された. またこの objective を計算するために Two Stream Self-Attention 構造を採用する.

さらに XLNet の名前の由来となっている Transformer-XL の構造も採用し, segment をまたいだ依存性も考慮できるようにしている.

www.slideshare.net