音声認識技術の変遷

こちらの解説記事を読んで内容をスライドにまとめました。

http://sap.ist.i.kyoto-u.ac.jp/members/kawahara/paper/ASJ18-7.pdf

音声認識技術を時代ごとに以下の 4 つの手法に分けて、それぞれについて手法(モデル)の概要をまとめました。

世代 手法
1 1960年〜 DPマッチング
2 1980年〜 統計モデル(GMM-HMM, N-gram)
3 2010年〜 ニューラルネットの導入(DNN-HMM)
4 2015年〜 End-to-End 学習

特に End-to-End 学習に関しては、サブワード(音素)単位の End-to-End と単語単位の End-to-End に分割して説明しました。

www.slideshare.net

間違い等はコメントで指摘していただけるとありがたいです。