@article{oai:nagoya.repo.nii.ac.jp:00021697, author = {熊谷, 章吾 and 道満, 恵介 and 高橋, 友和 and 出口, 大輔 and 井手, 一郎 and 村瀬, 洋 and KUMAGAI, Shogo and DOMAN, Keisuke and TAKAHASHI, Tomokazu and DEGUCHI, Daisuke and IDE, Ichiro and MURASE, Hiroshi}, issue = {38}, journal = {電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎}, month = {May}, note = {ニュース映像中の人物の発言シーンはマルチメディア情報を豊富に含み,資料価値が高い.発言シーンの抽出には顔領域の位置や大きさを利用するアプローチが考えられる.しかし,ナレーションシーンのように被写体と話者が一致していないシーンも存在するため,それだけでは発言シーンを必ずしも抽出できない.そこで我々は,発生する音とそれに伴う口唇動作から得られる複数の音声特徴と画像特徴の相関を利用して被写体と話者の一致・不一致を識別する手法を提案してきた.しかしながら,理想的な環境で撮影した映像に対する評価のみで,実際に放送されるニュース映像に対する評価にとどまっていた.本稿では,理想的な環境で撮影した映像を用いた実験とその結果,および実際に放送されたニュース映像を用いた実験とその結果について報告する.これら2つの実験から,提案手法の有効性および有用性を確認した., Speech scenes in news videos contain a wealth of multimedia information, and are valuable as archived material. In order to extract speech scenes from news videos, there is an approach that uses the position and size of a face region. However, it is difficult to extract them with only the approach, since news videos contain scenes where the speakers are not the subjects such as in narration scenes. To solve this problem, we have been proposing a method to detect the inconsistency between face and speaker focusing on the co-occurrence of the lip motion and the speech. However, the evaluations for the proposed method were performed in an ideal condition without much noise. In this paper, we report the investigation on the performance of the proposed method not only with videos captured in ideal conditions but also with actual broadcasted news videos. Their results showed the effectiveness and the usefulness of our method., IEICE Technical Report;MVE2011-12}, pages = {75--80}, title = {口唇動作と音声の共起に着目した被写体と話者の不一致検出 : ニュース映像への適用と評価(萌芽セッション,エンタテインメントのためのメディアとリアリティ)}, volume = {111}, year = {2011} }