多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究

大石, 康智

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

{"_buckets": {"deposit": "4be500ae-00e4-452f-a596-78131364dd8e"}, "_deposit": {"id": "9805", "owners": [], "pid": {"revision_id": 0, "type": "depid", "value": "9805"}, "status": "published"}, "_oai": {"id": "oai:nagoya.repo.nii.ac.jp:00009805", "sets": ["734"]}, "author_link": ["29530"], "item_12_biblio_info_6": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "2009-03-25", "bibliographicIssueDateType": "Issued"}}]}, "item_12_date_granted_64": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2009-03-25"}]}, "item_12_degree_grantor_62": {"attribute_name": "学位授与機関", "attribute_value_mlt": [{"subitem_degreegrantor": [{"subitem_degreegrantor_language": "ja", "subitem_degreegrantor_name": "名古屋大学"}, {"subitem_degreegrantor_language": "en", "subitem_degreegrantor_name": "Nagoya University"}], "subitem_degreegrantor_identifier": [{"subitem_degreegrantor_identifier_name": "13901", "subitem_degreegrantor_identifier_scheme": "kakenhi"}]}]}, "item_12_degree_name_61": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "博士(情報科学)", "subitem_degreename_language": "ja"}]}, "item_12_description_4": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "人間の口から発せられる音響事象の一つである歌声は、歌詞に込められた感情や想いを旋律に乗せて伝達する最も身近な音楽演奏手段である。歌声は、これまで、音響学、生理学、解剖学、心理学、歌唱学といった多角的な立場から研究され、歌声知覚や生成機構の解明に向けた様々な知見が得られた。例えば、歌声の旋律を表す基本周波数(F0) には、通常の話声に見られない、ビブラートなどの動的な変動成分が存在する。また、歌声の音色を表すスペクトルの3kHz 付近には、顕著なピーク（歌声特有の響き成分）が存在し、このピークは音声振幅やビブラートに同期して振幅変調される。さらに、これらの変動成分の動きは歌唱者ごとに多様であり、個人性知覚に寄与する特徴である。しかし、歌声を工学的に利用する実用的なシステムでは、このような音響的特徴の時間的な動きが精緻にモデル化されていなかった。そのため、ハミング検索システムでは歌唱者によってその検索性能は低く、歌声合成システムでは多様な歌唱様式による歌声の合成が困難であった。同じ歌声であっても、人間は歌唱様式や技術の差を容易に区別できるように、システムも歌唱者による歌声の多様性を理解し特徴づけた上で、目的となる歌声の認識や合成を行うべきである。そこで本研究では、多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルを構築する。そのために、従来のように特定の歌唱者や歌唱法に限定するのではなく、一般人を含めて、様々なレベルの歌声を対象とした大規模データベースを用いる。まずはじめに、聴取実験と自動識別実験に基づいて、歌声と通常の話声を人間と同程度の性能で識別しうる信号特徴尺度を構成する。通常の話声との識別の観点から、あらゆる歌声に共通する音響的特徴として、スペクトルや音高の時間的な変動成分の重要性を示す。次に、歌声の音高(F0) に焦点を当て、その時間的な動きをモデル化し、歌唱者ごとにどのように動きが異なるか、歌唱様式を特徴づけることに取り組む。本研究では、F0 が歌唱様式を特徴づけるなんらかの微分方程式に従って生成されると想定する。しかし、この微分方程式が実際どのような形をしているのかは未知である。そこで、観測されるF0 から、その背後にある微分方程式を明らかにする問題と位置づけ、2 つのモデルを提案する。1 つ目のモデルでは、F0 とその時間微分によって構成される相平面もしくは相空間上にF0 軌跡を描き、その同時確率分布によってF0 の動きをモデル化する。相平面は、複雑で解けない微分方程式の解の性質を調べるための便利な手段であり、この平面の同時確率分布が近似的に微分方程式を表現すると考えた。このモデルの有効性を2 つの観点から評価した。まず提案モデルによってF0 軌跡から階段状の目標音高軌跡を推定し、これをハミング検索の検索クエリに利用したところ、従来法と同等以上の性能が得られた。次に、提案モデルによって特徴づけられる動的変動成分から、歌唱者ごとの歌唱様式を分析した。そして、提案モデルが歌唱様式を大まかに自動分類できることを評価実験から確認した。2 つ目のモデルは、F0 制御モデルである。旋律を表す階段状の音高軌跡を入力とし、これに様々な動的変動成分が複雑に重ね合わされた状態でF0 が出力されると想定し、この入出力関係を全極モデルで表現する。この全極モデルのパラメータ（逆フィルタのインパルス応答）によって、F0 動的変動成分が表現される。そして、観測されるF0 だけから、反復法によって、階段状の音高軌跡と逆フィルタのインパルス応答を推定するアルゴリズムを提案する。逆特性のインパルス応答を推定することは、線形微分方程式の係数を近似的に求めていると考えることができる。評価実験では、提案手法によって、F0 軌跡から階段状の音高軌跡と動的変動因子を表すインパルス応答を適切に推定できること、また推定されたこれらの信号からF0 軌跡を再合成できることを正解率の観点から評価した。最後に、ある歌唱者のF0 動的変動成分を別の歌唱者の動的変動成分と取り換え、声質と音高を変化させることなく歌唱様式だけを自由に変換可能な歌声合成手法を提案する。", "subitem_description_language": "ja", "subitem_description_type": "Abstract"}]}, "item_12_description_5": {"attribute_name": "内容記述", "attribute_value_mlt": [{"subitem_description": "名古屋大学博士学位論文 学位の種類:博士(情報科学) (課程) 学位授与年月日:平成20年3月25日", "subitem_description_language": "ja", "subitem_description_type": "Other"}]}, "item_12_dissertation_number_65": {"attribute_name": "学位授与番号", "attribute_value_mlt": [{"subitem_dissertationnumber": "甲第8397号"}]}, "item_12_identifier_60": {"attribute_name": "URI", "attribute_value_mlt": [{"subitem_identifier_type": "HDL", "subitem_identifier_uri": "http://hdl.handle.net/2237/11606"}]}, "item_12_select_15": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_select_item": "publisher"}]}, "item_12_text_14": {"attribute_name": "フォーマット", "attribute_value_mlt": [{"subitem_text_value": "application/pdf"}]}, "item_12_text_63": {"attribute_name": "学位授与年度", "attribute_value_mlt": [{"subitem_text_value": "2008"}]}, "item_access_right": {"attribute_name": "アクセス権", "attribute_value_mlt": [{"subitem_access_right": "open access", "subitem_access_right_uri": "http://purl.org/coar/access_right/c_abf2"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "大石, 康智", "creatorNameLang": "ja"}], "nameIdentifiers": [{"nameIdentifier": "29530", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2018-02-20"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "DthesisOhishi200903.pdf", "filesize": [{"value": "9.8 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_note", "mimetype": "application/pdf", "size": 9800000.0, "url": {"label": "DthesisOhishi200903.pdf", "objectType": "fulltext", "url": "https://nagoya.repo.nii.ac.jp/record/9805/files/DthesisOhishi200903.pdf"}, "version_id": "81b37622-b430-4a68-9581-84bff552e45d"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "doctoral thesis", "resourceuri": "http://purl.org/coar/resource_type/c_db06"}]}, "item_title": "多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究", "subitem_title_language": "ja"}]}, "item_type_id": "12", "owner": "1", "path": ["734"], "permalink_uri": "http://hdl.handle.net/2237/11606", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2009-04-27"}, "publish_date": "2009-04-27", "publish_status": "0", "recid": "9805", "relation": {}, "relation_version_is_last": true, "title": ["多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究"], "weko_shared_id": -1}

多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究

http://hdl.handle.net/2237/11606

名前 / ファイル	ライセンス	アクション
DthesisOhishi200903.pdf (9.8 MB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2009-04-27

タイトル

多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究

言語

著者

大石, 康智

アクセス権

open access

アクセス権URI

http://purl.org/coar/access_right/c_abf2

抄録

内容記述

人間の口から発せられる音響事象の一つである歌声は、歌詞に込められた感情や想いを旋律に乗せて伝達する最も身近な音楽演奏手段である。歌声は、これまで、音響学、生理学、解剖学、心理学、歌唱学といった多角的な立場から研究され、歌声知覚や生成機構の解明に向けた様々な知見が得られた。例えば、歌声の旋律を表す基本周波数(F0) には、通常の話声に見られない、ビブラートなどの動的な変動成分が存在する。また、歌声の音色を表すスペクトルの3kHz 付近には、顕著なピーク（歌声特有の響き成分）が存在し、このピークは音声振幅やビブラートに同期して振幅変調される。さらに、これらの変動成分の動きは歌唱者ごとに多様であり、個人性知覚に寄与する特徴である。しかし、歌声を工学的に利用する実用的なシステムでは、このような音響的特徴の時間的な動きが精緻にモデル化されていなかった。そのため、ハミング検索システムでは歌唱者によってその検索性能は低く、歌声合成システムでは多様な歌唱様式による歌声の合成が困難であった。同じ歌声であっても、人間は歌唱様式や技術の差を容易に区別できるように、システムも歌唱者による歌声の多様性を理解し特徴づけた上で、目的となる歌声の認識や合成を行うべきである。そこで本研究では、多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルを構築する。そのために、従来のように特定の歌唱者や歌唱法に限定するのではなく、一般人を含めて、様々なレベルの歌声を対象とした大規模データベースを用いる。まずはじめに、聴取実験と自動識別実験に基づいて、歌声と通常の話声を人間と同程度の性能で識別しうる信号特徴尺度を構成する。通常の話声との識別の観点から、あらゆる歌声に共通する音響的特徴として、スペクトルや音高の時間的な変動成分の重要性を示す。次に、歌声の音高(F0) に焦点を当て、その時間的な動きをモデル化し、歌唱者ごとにどのように動きが異なるか、歌唱様式を特徴づけることに取り組む。本研究では、F0 が歌唱様式を特徴づけるなんらかの微分方程式に従って生成されると想定する。しかし、この微分方程式が実際どのような形をしているのかは未知である。そこで、観測されるF0 から、その背後にある微分方程式を明らかにする問題と位置づけ、2 つのモデルを提案する。1 つ目のモデルでは、F0 とその時間微分によって構成される相平面もしくは相空間上にF0 軌跡を描き、その同時確率分布によってF0 の動きをモデル化する。相平面は、複雑で解けない微分方程式の解の性質を調べるための便利な手段であり、この平面の同時確率分布が近似的に微分方程式を表現すると考えた。このモデルの有効性を2 つの観点から評価した。まず提案モデルによってF0 軌跡から階段状の目標音高軌跡を推定し、これをハミング検索の検索クエリに利用したところ、従来法と同等以上の性能が得られた。次に、提案モデルによって特徴づけられる動的変動成分から、歌唱者ごとの歌唱様式を分析した。そして、提案モデルが歌唱様式を大まかに自動分類できることを評価実験から確認した。2 つ目のモデルは、F0 制御モデルである。旋律を表す階段状の音高軌跡を入力とし、これに様々な動的変動成分が複雑に重ね合わされた状態でF0 が出力されると想定し、この入出力関係を全極モデルで表現する。この全極モデルのパラメータ（逆フィルタのインパルス応答）によって、F0 動的変動成分が表現される。そして、観測されるF0 だけから、反復法によって、階段状の音高軌跡と逆フィルタのインパルス応答を推定するアルゴリズムを提案する。逆特性のインパルス応答を推定することは、線形微分方程式の係数を近似的に求めていると考えることができる。評価実験では、提案手法によって、F0 軌跡から階段状の音高軌跡と動的変動因子を表すインパルス応答を適切に推定できること、また推定されたこれらの信号からF0 軌跡を再合成できることを正解率の観点から評価した。最後に、ある歌唱者のF0 動的変動成分を別の歌唱者の動的変動成分と取り換え、声質と音高を変化させることなく歌唱様式だけを自由に変換可能な歌声合成手法を提案する。

言語

内容記述タイプ

Abstract

内容記述

名古屋大学博士学位論文学位の種類:博士(情報科学) (課程) 学位授与年月日:平成20年3月25日

言語

内容記述タイプ

Other

言語

jpn

資源タイプ

資源

http://purl.org/coar/resource_type/c_db06

タイプ

doctoral thesis

書誌情報

発行日 2009-03-25

学位名

言語

学位名

博士(情報科学)

学位授与機関

学位授与機関識別子Scheme

kakenhi

学位授与機関識別子

13901

言語

学位授与機関名

名古屋大学

言語

学位授与機関名

Nagoya University

学位授与年度

2008

学位授与年月日

2009-03-25

学位授与番号

甲第8397号

フォーマット

application/pdf

著者版フラグ

値

publisher

URI

識別子

http://hdl.handle.net/2237/11606

識別子タイプ

HDL

戻る

views

See details

	Views

Versions

Ver.1

2021-03-01 11:54:16.657182

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究

× 大石, 康智

Versions

Share

Cite as

エクスポート