論文解説 - Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition
Interspeech 読み会 2022 で発表したものです。
[元論文]
Interspeech2022 の best student paper の 1 つ。
著者らが以前提案した Tree-constrained Pointer Generator (TCPGen) の拡張。 Contextual biasing という特定コンテキストの単語 (人名、作品名、専門用語 etc) などを音声認識しやすくする方法で、実用上重要そう。
手法の詳細はスライド参照。 単語リストに関する prefix tree 表現に Graph Neural Network (GNN) のものを利用。
www.slideshare.net
[おまけ] Interspeech 発表記念写真。次は現地行きたい。