論文解説 - Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition

Interspeech 読み会 2022 で発表したものです。 [元論文] arxiv.org Interspeech2022 の best student paper の 1 つ。 著者らが以前提案した Tree-constrained Pointer Generator (TCPGen) の拡張。 Contextual biasing という特定コンテキストの単語 (人名…

解説 - Factorized Neural Transducer for Efficient Language Model Adaptation

ICASSP 読み会 2022 で発表したものです. 元論文 arxiv.org End-to-End 音声認識の Transducer モデルにおける言語モデル適用に関する話題. Transducer の decoder は, vocabulary 予測と blank 予測による alignment を同時に行う. これを vocab 予測のみ行…

解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION

元論文 https://arxiv.org/abs/2102.01380 著者らが以前発表した Internal Language Model Estimation (https://arxiv.org/abs/2011.01991) について、ASR の Internal LM を最適化する学習を行うことでさらに改善. 解説 - INTERNAL LANGUAGE MODEL TRAINING…

INSTALL ESPnet メモ

ESPnet: end-to-end speech processing toolkit GitHub - espnet/espnet: End-to-End Speech Processing Toolkit 1. INSTALL Kaldi $ git clone https://github.com/kaldi-asr/kaldi $ cd <kaldi-root>/tools $ make -j <num-cpus> $ ./extras/install_openblas.sh $ cd <kaldi-root>/src $ ./c</kaldi-root></num-cpus></kaldi-root>…

解説 - XLNet: Generalized Autoregressive Pretraining for Language Understanding

元論文 https://papers.nips.cc/paper/8812-xlnet-generalized-autoregressive-pretraining-for-language-understanding.pdf 事前学習モデル XLNet を提案. Fine-tuning により SQuAD や GLUE などの 20 タスクで BERT (さらには RoBERTa) を上回った. BERT …

解説 - Unified Language Model Pre-training forNatural Language Understanding and Generation

元論文 https://papers.nips.cc/paper/9464-unified-language-model-pre-training-for-natural-language-understanding-and-generation.pdf Natural Language Understanding (NLU) と Natural Language Generation (NLG) のための事前学習法として UNIfied p…

情報学研究科 知能情報学専攻 (京都大学) に合格しました。

私事ですが、京都大学 情報学研究科 知能情報学専攻に合格しました。 知能情報学専攻の研究室に 4 回生で配属されていて、その研究室に内部進学する予定です。 記憶に新しいうちに感想、やったこと等をまとめておきます。 内容の正確性は保証できません。ポ…

パターン認識と機械学習(PRML) 13章

PRML 13章を輪講で発表しました。 簡単なまとめ 隠れマルコフモデル(HMM) 潜在変数は離散 パラメータ推定: EM + Forward-backward Viterbi アルゴリズム: 観測系列に対して最も確からしい潜在系列を求める. 線形動的システム(LDS) 潜在変数は連続. 観測変数,…

音声認識技術の変遷

こちらの解説記事を読んで内容をスライドにまとめました。 http://sap.ist.i.kyoto-u.ac.jp/members/kawahara/paper/ASJ18-7.pdf 音声認識技術を時代ごとに以下の 4 つの手法に分けて、それぞれについて手法(モデル)の概要をまとめました。 世代 年 手法 1 1…