WEKO3
アイテム
ポスター会話に対する発話区間検出と話者識別の検討
https://ipsj.ixsq.nii.ac.jp/records/56791
https://ipsj.ixsq.nii.ac.jp/records/567911fe55035-1ac4-4c53-808a-183d0168e83c
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2007-12-21 | |||||||
| タイトル | ||||||||
| タイトル | ポスター会話に対する発話区間検出と話者識別の検討 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | A Study on Speech Activity Detection and Speaker Diarization for the Recordings of Poster Sessions | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所/京都大学大学院情報学研究科 | ||||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所 | ||||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所 | ||||||||
| 著者所属 | ||||||||
| 京都大学大学院情報学研究科 | ||||||||
| 著者所属 | ||||||||
| 京都大学学術情報メディアセンター | ||||||||
| 著者所属 | ||||||||
| 京都大学大学院情報学研究科/京都大学学術情報メディアセンター | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Communication Science Laboratories, NTT Corp. / Graduate School of Informatics, Kyoto University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Communication Science Laboratories, NTT Corp. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Communication Science Laboratories, NTT Corp. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Informatics, Kyoto University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Academic Center for Computing and Media Studies, Kyoto University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Informatics, Kyoto University / Academic Center for Computing and Media Studies, Kyoto University | ||||||||
| 著者名 |
石塚健太郎
荒木, 章子
藤本, 雅清
瀬戸ロ, 久雄
高梨, 克也
河原, 達也
× 石塚健太郎 荒木, 章子 藤本, 雅清 瀬戸ロ, 久雄 高梨, 克也 河原, 達也
|
|||||||
| 著者名(英) |
Kentaro, ISHIZUKA
Shoko, ARAKI
Masakiyo, FUJIMOTO
Hisao, SETOGUCHI
Katsuya, TAKANASHI
Tatsuya, KAWAHARA
× Kentaro, ISHIZUKA Shoko, ARAKI Masakiyo, FUJIMOTO Hisao, SETOGUCHI Katsuya, TAKANASHI Tatsuya, KAWAHARA
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 会議やポスター発表などの,多人数によるインタラクションを含む場面において,「誰がいつ話したか?」を検出できれば,検索のためにインデクスを付与する場合や談話構造分析の手がかりとして有用である.この実現のためには,まず観測信号の中から何らかの音声が話されている区間を取り出し(発話区間検出),検出された音声区間について発話者を分類する必要がある(話者識別).本稿では,マイクロホンアレイによりポスター発表を収録して得られた音声データに対し,「いつ」を捉えるために音声の周期性・非周期性の比を用いた発話区間検出技術を適用し,「誰が」を捉えるために音声信号の到来方向を用いた話者識別の手法を適用した場合について,その結果得られる話者識別性能に関し予備的な検討を行った. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Detecting “Who spoke when?” from multi-party interactions such as meetings and poster presentations is valuable for adding metadata to the recordings or analyzing the discourse-structures of the multi-party interactions. To realize this function, we first detect speech periods from the observed signals (speech activity detection), and then classify the speech periods by its speakers (speaker diarization). In this paper, we adopt a speech activity detection method and a speaker diarization method to the recordings of poster sessions. The speech activity method performs based on the ratios of periodic and aperiodic components of observed signals. The speaker diarization method utilizes the direction of arrival estimation of the detected speech signals obtained from a microphone array. This paper reports preliminary results obtained from these methods. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 129(2007-SLP-069), p. 217-222, 発行日 2007-12-21 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||