{"id":240100,"created":"2025-01-19T01:44:05.617793+00:00","metadata":{"_oai":{"id":"oai:ipsj.ixsq.nii.ac.jp:00240100","sets":["6164:6165:7006:11799"]},"path":["11799"],"owner":"44499","recid":"240100","title":["speaker diarization の精度低下要因の考察"],"pubdate":{"attribute_name":"公開日","attribute_value":"2024-10-23"},"_buckets":{"deposit":"2ad8cc90-3dfa-4a4d-ad12-0ca9a6d0a192"},"_deposit":{"id":"240100","pid":{"type":"depid","value":"240100","revision_id":0},"owners":[44499],"status":"published","created_by":44499},"item_title":"speaker diarization の精度低下要因の考察","author_link":["658265","658264","658263"],"item_titles":{"attribute_name":"タイトル","attribute_value_mlt":[{"subitem_title":"speaker diarization の精度低下要因の考察"}]},"item_keyword":{"attribute_name":"キーワード","attribute_value_mlt":[{"subitem_subject":"speaker diarization，字幕，ASR，クラウドソーシング，音声認識","subitem_subject_scheme":"Other"}]},"item_type_id":"18","publish_date":"2024-10-23","item_language":{"attribute_name":"言語","attribute_value_mlt":[{"subitem_language":"jpn"}]},"item_18_text_3":{"attribute_name":"著者所属","attribute_value_mlt":[{"subitem_text_value":"同志社大学大学院"},{"subitem_text_value":"同志社大学大学院"},{"subitem_text_value":"同志社大学大学院"}]},"item_publisher":{"attribute_name":"出版者","attribute_value_mlt":[{"subitem_publisher":"情報処理学会","subitem_publisher_language":"ja"}]},"publish_status":"0","weko_shared_id":-1,"item_file_price":{"attribute_name":"Billing file","attribute_type":"file","attribute_value_mlt":[{"url":{"url":"https://ipsj.ixsq.nii.ac.jp/record/240100/files/IPSJ-DPSWS20240034.pdf","label":"IPSJ-DPSWS20240034.pdf"},"date":[{"dateType":"Available","dateValue":"2026-10-23"}],"format":"application/pdf","billing":["billing_file"],"filename":"IPSJ-DPSWS20240034.pdf","filesize":[{"value":"929.2 kB"}],"mimetype":"application/pdf","priceinfo":[{"tax":["include_tax"],"price":"660","billingrole":"5"},{"tax":["include_tax"],"price":"330","billingrole":"6"},{"tax":["include_tax"],"price":"0","billingrole":"34"},{"tax":["include_tax"],"price":"0","billingrole":"44"}],"accessrole":"open_date","version_id":"e77b22b7-4283-45bb-94f7-14c210649019","displaytype":"detail","licensetype":"license_note","license_note":"Copyright (c) 2024 by the Information Processing Society of Japan"}]},"item_18_creator_5":{"attribute_name":"著者名","attribute_type":"creator","attribute_value_mlt":[{"creatorNames":[{"creatorName":"大島, 千尋"}],"nameIdentifiers":[{}]},{"creatorNames":[{"creatorName":"黒岩, 舜"}],"nameIdentifiers":[{}]},{"creatorNames":[{"creatorName":"小板, 隆浩"}],"nameIdentifiers":[{}]}]},"item_resource_type":{"attribute_name":"資源タイプ","attribute_value_mlt":[{"resourceuri":"http://purl.org/coar/resource_type/c_5794","resourcetype":"conference paper"}]},"item_18_description_7":{"attribute_name":"論文抄録","attribute_value_mlt":[{"subitem_description":"近年，動画コンテンツの需要が高まり，字幕生成技術の重要性が増している．自動字幕生成において，複数話者が含まれる音声に対する字幕生成において必要となる speaker diarization の精度が低下し，話者アノテーションの品質が低下すると，字幕の品質が損なわれる問題が生じる．本研究では，話者アノテーションの品質の品質向上を目指し，speaker diarization 処理の後にクラウドソーシングを組み合わせる手法を提案する．本手法では，speaker diarization の誤ラベリングが発生しやすい時刻を音声中から自動で判定し，該当部分をクラウドソーシングによって修正することで，全体の話者アノテーションの精度向上を目指す．本稿では，特に発話の重なり，発話の長さ，音声エネルギーの変化，感情分析を基に，誤ラベリング発生時刻の予測の可能性を検証した．","subitem_description_type":"Other"}]},"item_18_biblio_info_10":{"attribute_name":"書誌情報","attribute_value_mlt":[{"bibliographicPageEnd":"216","bibliographic_titles":[{"bibliographic_title":"第32回マルチメディア通信と分散処理ワークショップ論文集"}],"bibliographicPageStart":"212","bibliographicIssueDates":{"bibliographicIssueDate":"2024-10-23","bibliographicIssueDateType":"Issued"}}]},"relation_version_is_last":true,"weko_creator_id":"44499"},"updated":"2025-01-19T08:05:12.814935+00:00","links":{}}