音声認識技術の変遷
こちらの解説記事を読んで内容をスライドにまとめました。
http://sap.ist.i.kyoto-u.ac.jp/members/kawahara/paper/ASJ18-7.pdf
音声認識技術を時代ごとに以下の 4 つの手法に分けて、それぞれについて手法(モデル)の概要をまとめました。
世代 | 年 | 手法 |
---|---|---|
1 | 1960年〜 | DPマッチング |
2 | 1980年〜 | 統計モデル(GMM-HMM, N-gram) |
3 | 2010年〜 | ニューラルネットの導入(DNN-HMM) |
4 | 2015年〜 | End-to-End 学習 |
特に End-to-End 学習に関しては、サブワード(音素)単位の End-to-End と単語単位の End-to-End に分割して説明しました。
www.slideshare.net
間違い等はコメントで指摘していただけるとありがたいです。