| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-06-16 |
| タイトル |
|
|
タイトル |
歌詞と歌唱音声のアライメント崩れに基づく替え歌検知 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Parody Detection Based on Alignment Collapse Between Lyrics and Singing Voice |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
早稲田大学 |
| 著者所属 |
|
|
|
早稲田大学 |
| 著者所属 |
|
|
|
株式会社第一興商 |
| 著者所属 |
|
|
|
株式会社第一興商 |
| 著者所属 |
|
|
|
株式会社第一興商 |
| 著者所属 |
|
|
|
早稲田大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Waseda University |
| 著者所属(英) |
|
|
|
en |
|
|
Waseda University |
| 著者所属(英) |
|
|
|
en |
|
|
DAIICHIKOSHO CO., LTD. |
| 著者所属(英) |
|
|
|
en |
|
|
DAIICHIKOSHO CO., LTD. |
| 著者所属(英) |
|
|
|
en |
|
|
DAIICHIKOSHO CO., LTD. |
| 著者所属(英) |
|
|
|
en |
|
|
Waseda University |
| 著者名 |
有賀, 智輝
樋口, 陽祐
菅野, 光則
執行, 里恵
水口, 天都
岡本, 直紀
小川, 哲司
|
| 著者名(英) |
Tomoki, Ariga
Yosuke, Higuchi
Mitsunori, Kanno
Rie, Sigyo
Takato, Mizuguchi
Naoki, Okamoto
Tetsuji, Ogawa
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
替え歌を含むカラオケ歌唱音声に対して正解歌詞との強制アライメントを行い,アライメントの崩れ具合を評価することで替え歌を検知することを試みた.替え歌の検知は,歌唱音声がインターネット上で配信される際の著作権侵害の有無の確認や,カラオケの採点アルゴリズムの精度向上に貢献する.歌唱音声には正解の歌詞が必ず存在するため,音響モデルを用いた強制アライメントを適用できる.しかし,歌詞が正しく歌われていない場合や,替え歌が含まれている場合には音響特徴とのミスマッチによってアライメントがうまく取れず,崩れる可能性がある.本研究の目的は,このアライメントの崩れを利用して替え歌を検知するシステムを構築することである.そのために,推定されたアライメントの崩れ具合を評価するための適切な尺度を調査する.このとき,リズムの取り方の違いなど,歌唱者の個人性に対して頑健な評価尺度も新たに検討する.実験では,正確なアライメントの推定を行うために,日本語のカラオケ歌唱データセットを構築し,これを用いて歌唱音声に基づいた音響モデルを学習する.替え歌検知実験の結果,編集距離に基づく提案の評価尺度を用いることで,Area Under the Curve(AUC)で 0.963 を与える高い検知性能を得られることが明らかとなった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose a parody detection system for karaoke singing by evaluating alignment collapse between lyrics and singing voice. The detection of parodies plays a crucial role in identifying copyright infringements in online karaoke recordings, while also enhancing the quality of singing evaluation algorithms. Considering that, for a particular song, the ground-truth transcriptions (i.e., lyrics) remain constant, we can employ an acoustic model to achieve forced alignment between lyrics and the corresponding singing voice. However, when a singing voice is performed with incorrect lyrics or parodies, the alignment estimation may become challenging due to discrepancies in the acoustic features. Our objective is to identify the potential alignment collapse for detecting parodies in singing voice. To this end, we examine various metrics to assess the degree of collapse in the estimated alignments. Furthermore, we develop metrics that are robust against variations among singers, such as modifications in rhythm arrangements. In the course of our experiments, we construct a Japanese singing voice dataset to train an acoustic model specific to the singing domain, which is crucial for estimating accurate alignments. The results suggest that our proposed system, which uses an edit-distance-based metric, is highly successful in detecting parodies, achieving an area under the curve (AUC) value of 0.963. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
| 書誌情報 |
研究報告音楽情報科学(MUS)
巻 2023-MUS-137,
号 29,
p. 1-6,
発行日 2023-06-16
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |