Multi-class composite N-gram language model

Hirofumi Yamamoto*, Shuntaro Isogai, Yoshinori Sagisaka

*この研究の対応する著者

研究成果: Article査読

38 被引用数 (Scopus)

抄録

A new language model is proposed to cope with the scarcity of training data. The proposed multi-class N-gram achieves an accurate word prediction capability and high reliability with a small number of model parameters by clustering words multi-dimensionally into classes, where the left and right context are independently treated. Each multiple class is assigned by a grouping process based on the left and right neighboring characteristics. Furthermore, by introducing frequent word successions to partially include higher order statistics, multi-class N-grams are extended to more efficient multi-class composite N-grams. In comparison to conventional word tri-grams, the multi-class composite N-grams achieved 9.5% lower perplexity and a 16% lower word error rate in a speech recognition experiment with a 40% smaller parameter size.

本文言語English
ページ(範囲)369-379
ページ数11
ジャーナルSpeech Communication
41
2-3
DOI
出版ステータスPublished - 2003 10月
外部発表はい

ASJC Scopus subject areas

  • ソフトウェア
  • モデリングとシミュレーション
  • 通信
  • 言語および言語学
  • 言語学および言語
  • コンピュータ ビジョンおよびパターン認識
  • コンピュータ サイエンスの応用

フィンガープリント

「Multi-class composite N-gram language model」の研究トピックを掘り下げます。これらがまとまってユニークなフィンガープリントを構成します。

引用スタイル