Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
日常会話の発話重畳分析と非同期分散録音に対するオンライン独立ベクトル分析による分離の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Analysis of Overlapped Utterances in Everyday Conversation and Source Separation by Online Independent Vector Analysis for Asynchronous Distributed Recordings |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
EA1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者名 |
南木, 春希
中嶋, 大志
山岡, 洸瑛
若林, 佑幸
小野, 順貴
|
著者名(英) |
Haruki, Nammoku
Taishi, Nakashima
Kouei, Yamaoka
Yukoh, Wakabayashi
Nobutaka, Ono
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,日常会話における発話重畳の書き起こしへの影響を分析し,また,非同期録音に対するブラインド音源分離手法を提案する.日常会話では発話が重畳することが多く,発話の書き起こしなどに影響を与えうる.まず,日本語日常会話コーパス(Corpus of Everyday Japanese Conversation; CEJC)収録の発話書き起こしテキストなどを用いて,発話の重畳時間や発話重畳の書き起こしへの影響を分析する.そして,ブラインド音源分離の適用を検討する.CEJC 収録の会話音声データは,非同期の IC レコーダーにより録音されており,バッチ処理による音源分離が困難である.これに対し,時間周波数マスキングによる分離信号を音源モデルとして利用する,一種の教師ありオンライン型独立ベクトル分析を提案する.その性能を CEJC 収録の会話録音条件を想定しシミュレーション環境下で生成した非同期信号に対し評価し,提案法が日常会話録音の書き起こしに有用である可能性を示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this study, we investigate the effects of overlapped utterances on transcription in everyday conversation and propose a blind source separation method for asynchronous recordings to solve this problem. Overlapping of utterances, which occurs sometimes in everyday conversations, makes it difficult to transcribe speech data for building a corpus. Firstly, we survey the time of overlapped utterances and the influence of overlapped utterances in actual conversations on the difficulty of transcription using the transcription data from the Corpus of Everyday Japanese Conversation (CEJC). Conventional source separation methods with a batch scheme are difficult to perform against the CEJC audio data, because audio data is recorded by asynchronous voice recorders under dynamic acoustic situations. We propose a supervised online independent vector analysis using the enhanced signal by time–frequency masking as a source model to accomplish source separation for such audio data. We evaluate the performance of the proposed method against asynchronous recordings generated in a simulation environment under the assumed conditions of CEJC-recorded conversations, and it shows that the proposed method can support the transcription of everyday conversations. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 7,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |