論文要旨  音声は人間がコミュニケーションを行なうための最も有効な手段 の一つであることから, 音声認識技術の進歩とともに人間と機械と の音声による対話を実現するインタフェースへの期待が高まってい る. カーナビなど一部の音声インタフェースでは, 今や実用に足る 有用性を得たと言えるが, 音声インタフェースが日常社会に普及し た例はまだ少ない. 近年, 音声認識の研究を行なう上での環境が大 きく進歩し, さまざまなアプリケーションで音声認識技術が研究さ れている.しかしながら, 音声認識技術はまだ十分ではないと言え る.その最大の要因は, 音声認識技術の性能と利用形態に関わる制 約が大きい点にある.本論文の目的は, 音声認識システムの性能を 向上させ, 人間にとって使いやすいインタフェースを構築するため の要素技術を開発することである.  本論文では, まず, 音響尤度の算出方法を高度化することによっ て音声認識システムの性能を改善する手法について検討した. 音声 認識では, 話者の違いによる音響スペクトルの多様性に対応した音 響尤度の算出手法が必要となる. 音素の音響的特徴は話者の違いに より広い範囲に変動するが, 音素間の相対的な関係には話者によら ず強い依存性があることが知られている. 従来の音声認識における 音響尤度の算出ではこのような音素間の相関が考慮されておらず, 音素間の相関を利用することによって認識率の改善が期待でき る. 本研究では, 不特定話者音声認識において音素間の相関を考慮 することにより, 適応データを用いることなく話者の特徴を利用す る認識手法を開発した. 多数話者による日本語5母音の物理的特徴 の広がりを, 主成分分析によって次元を圧縮することにより, ある 話者の5母音が存在しうる特徴部分空間(話者空間)を構成しモデ ル化する. 音声認識での各文候補において5母音からなる特徴を特 徴ベクトル空間上に配置し話者空間までの距離を求め各文候補の妥 当性とする. 複数の文候補を得るN-bestの認識結果に対して, 各候 補の音響スコアに話者空間までの距離を付け加え再評価し, 第1位 候補の認識誤り率を25%削減した.  次に, ユーザにとって使いやすい認識結果の候補提示手法につい て検討した. 近年, 統計的手法の利用によって音声認識技術が大き く向上したものの, 認識結果を一つだけ提示する場合, 正しい結果 が常に得られるとは限らないのが現状である. そのため, 認識結果 を複数候補提示し, 利用者が候補の中から正解を選択する音声イン タフェースの研究が行われている. このようなN-best方式の音声認 識に基づく音声インタフェースでは, 提示する候補数の決定が重要 な問題となる. 認識候補を多く表示すれば正解が含まれる確率は高 くなるが, ユーザが正解を探す手間も増える. そこで, N-best候補 の認識スコアの分布を利用して候補提示数を動的に決定する手法を 提案した. N-best候補における認識スコアと候補間の認識スコアの 差を利用して候補提示数を決定すれば, 正解が含まれる割合(正解 提示率)の減少を平均で1%以内に抑えながら, 提示する候補数を平 均で73%以上減らせることを示した. キーワード  音声認識, N-best, 音素間相関, 主成分分析, 話者空間, 母音の 正規化, 認識スコア, ヒューリスティックス