@article{oai:nagoya.repo.nii.ac.jp:00008768, author = {後藤, 真孝 and Goto, Masataka and 北山, 広治 and Kitayama, Koji and 伊藤, 克亘 and Ito, katunobu and 小林, 哲則 and Kobayashi, Tetsunori}, issue = {5}, journal = {情報処理学会論文誌}, month = {}, note = {本論文では,ユーザが有声休止(母音の引き延ばし)によって言い淀んだ後に音声入力することで,雑音環境下での発話区間検出を容易にする「音声スタータ」という音声インタフェース機能を提案する.通常の音声認識システムでは,入力音響信号から発話区間を検出した後に,その区間に対して音声認識結果を得る.しかし非定常な雑音環境下では,頑健に発話区間を検出することが困難なため,音声認識誤りを生じることが多かった.音声スタータでは,ユーザが「えー」や「あのー」のように有声休止を発話の先頭(発話区間の始端)で故意に発声することで,システムに音声認識してほしい発話を明示的に指定することを可能にする.有声休止はパワーの大きい母音が持続することから,雑音環境下でも頑健に検出でき,発話区間検出の精度を向上させることができる.さらに,音声スタータではマイク以外のデバイスが不要でハンズフリーな音声認織を実現でき,日常会話でも言い淀んでから話し始めることがよくあるためにユーザの負担も少ないという利点がある.実際に7種類の雑音環境下で音声認識実験をしたところ,特にSNR10dBにおいて従来の他の発話区間検出手法を用いた場合よりも,音声スタータを用いた場合の方が検出性能が高かった., This paper describes a speech interface function, called Speech Starter, which enables noise-robust endpoint (utterance) detection by having a user utter a filled pause (a vowellengthening hesitation) at the beginning of each utterance. Most current speech recognizers first detect a utterance with its endpoints and then recognize the detected utterance. When speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noise. Speech Starter enables a user to specify the beginning of each utterance with an intentional filled pause (e.g., "er..."), which is used as a trigger to start speech-recognition processes. Because a filled pause contains a lengthened vowel with high power and can be detected robustly in a noisy environment, practical robust endpoint detection is achieved.}, pages = {2001--2011}, title = {音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース}, volume = {48}, year = {2007} }