@article{oai:nagoya.repo.nii.ac.jp:00008767, author = {後藤, 真孝 and Goto, Masataka and 北山, 広治 and Kitayama, Koji and 伊藤, 克亘 and Ito, Katunobu and 小林, 哲則 and Kobayashi, Tetsunori}, issue = {3}, journal = {情報処理学会論文誌}, month = {}, note = {本論文では,人間同士の会話中に音声認織システムへ音声コマンドを入力できる「音声スポッタ」という音声インタフェース機能を提案する.従来,会話中のユーザの音声が,音声認識システムと会話相手の人のどちらに対する発話かを,マイク入力による音声だけから識別することは国雄だったため,人間同士の会話中に音声認敢システムは利用されていなかった.音声スポッタでは,音声に含まれる非言語情報の中から,有声休止(「えー」のように母音の引き延ばし)による言い淀みと.声の高さの2種類を活用することで,各発話が音声認識システムに入力されるかどうかを,ユーザが意図的に制御できるようにする.具体的には,母音を延ばして言い淀んだ後に故意に高い声で発声された特殊な(不自然な)発話だけを音声認識対象と見なし,通常の会話中の発話は軽視することで会話の支援を実現する.その応用例として我々は,会話中のユーザに各種情報支援をする「オンデマンド会話支援システム」と,電話での通話中にユーザがBGM を選曲・再生できる「BGM付き電話システム」の2つを構築した.音声スポッタによる発話の検出性能の評価結果やこれらのシステムの試用を通じて,本機能が頑健で便利であることを確認した., This paper describes a speech-interface function, called "Speech Spotter", which enables a user to enter voice commands into a speech recognizer in the midst of natural humanhuman conversation. In the past, it has been difficult to use automatic speech recognition in human-human conversation since it was not easy to judge, from only microphone input, whether a user was speaking to another person or a speech recognizer. We enable a user to intentionally control whether each utterance is to be accepted (processed) by the speech recognizer by using two kinds of nonverbal speech information: a filled pause (a vowel-lengthening hesitation like "er... ") and voice pitch. Speech Spotter regards a user utterance as a command utterance only when it is uttered with a high pitch just after a filled pause. In other words, this function accepts this specially-designed unnatural utterance only and ignores other normal utterances. By using Speech Spotter, we have built two application systems: an ondemand information system for assisting human-human conversation and a music-playback system for enriching telephone conversation. The results from evaluating this function and using these systems have shown that Speech Spotter is robust and convenient enough to be used in face-to-face or cellular-phone conversations.}, pages = {1274--1283}, title = {音声スポッタ:人間同士の会話中に音声認識が利用可能な音声入力インタフェース}, volume = {48}, year = {2007} }