解説 - Factorized Neural Transducer for Efficient Language Model Adaptation
ICASSP 読み会 2022 で発表したものです.
元論文
End-to-End 音声認識の Transducer モデルにおける言語モデル適用に関する話題.
Transducer の decoder は, vocabulary 予測と blank 予測による alignment を同時に行う. これを vocab 予測のみ行う言語モデル (vocab predictor)と alignment を行うモデル (blank predictor) へ分解することを提案. Vocab predictor をテキストデータで fine-tuning することで適用可能.
www.slideshare.net
Hybrid Autoregressive Transducer (HAT) と同様の考え方?