解説 - XLNet: Generalized Autoregressive Pretraining for Language Understanding
事前学習モデル XLNet を提案. Fine-tuning により SQuAD や GLUE などの 20 タスクで BERT (さらには RoBERTa) を上回った.
BERT の事前学習 (Masked Language Modeling objective) の問題点として,
[MASK] されたトークン間での独立性の仮定 や [MASK] の導入による事前学習と fine-tuning の不一致が挙げられる.
これらを解決するために Permutation Language Modeling objective が導入された. またこの objective を計算するために Two Stream Self-Attention 構造を採用する.
さらに XLNet の名前の由来となっている Transformer-XL の構造も採用し, segment をまたいだ依存性も考慮できるようにしている.
www.slideshare.net