論文解説 - Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition

Interspeech 読み会 2022 で発表したものです。

[元論文]

arxiv.org

Interspeech2022 の best student paper の 1 つ。

著者らが以前提案した Tree-constrained Pointer Generator (TCPGen) の拡張。 Contextual biasing という特定コンテキストの単語 (人名、作品名、専門用語 etc) などを音声認識しやすくする方法で、実用上重要そう。

手法の詳細はスライド参照。 単語リストに関する prefix tree 表現に Graph Neural Network (GNN) のものを利用。

www.slideshare.net

[おまけ] Interspeech 発表記念写真。次は現地行きたい。

解説 - Factorized Neural Transducer for Efficient Language Model Adaptation

ICASSP 読み会 2022 で発表したものです.

元論文

arxiv.org

End-to-End 音声認識の Transducer モデルにおける言語モデル適用に関する話題.

Transducer の decoder は, vocabulary 予測と blank 予測による alignment を同時に行う. これを vocab 予測のみ行う言語モデル (vocab predictor)と alignment を行うモデル (blank predictor) へ分解することを提案. Vocab predictor をテキストデータで fine-tuning することで適用可能.

www.slideshare.net

Hybrid Autoregressive Transducer (HAT) と同様の考え方?

https://arxiv.org/pdf/2003.07705.pdf

解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION

元論文

https://arxiv.org/abs/2102.01380

著者らが以前発表した Internal Language Model Estimation (https://arxiv.org/abs/2011.01991) について、ASR の Internal LM を最適化する学習を行うことでさらに改善.

www.slideshare.net

ICASSP 読み会 2021 で発表したものです.