WEKO3
アイテム
多数話者音声データベースを用いた討論音声の教師なし話者インデキシング
https://ipsj.ixsq.nii.ac.jp/records/57323
https://ipsj.ixsq.nii.ac.jp/records/573232cf9934e-761c-4031-9e6a-98cae50d1a8d
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2002-07-12 | |||||||
| タイトル | ||||||||
| タイトル | 多数話者音声データベースを用いた討論音声の教師なし話者インデキシング | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Unsupervised Speaker Indexing for Discussion Speech Using Large - Scale Speech Database | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科知能情報学専攻/科学技術振興事業団さきがけ研究21 | ||||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科知能情報学専攻/科学技術振興事業団さきがけ研究21 | ||||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科知能情報学専攻 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Informatics, Kyoto University/Japan Science and Technology Corporation PRESTO | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Informatics, Kyoto University/Japan Science and Technology Corporation PRESTO | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Informatics, Kyoto University | ||||||||
| 著者名 |
秋田, 祐哉
河原, 達也
奥乃, 博
× 秋田, 祐哉 河原, 達也 奥乃, 博
|
|||||||
| 著者名(英) |
Yuya, Akita
Tatsuya, Kawahara
Hiroshi, G.Okuno
× Yuya, Akita Tatsuya, Kawahara Hiroshi, G.Okuno
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 討論などの長時間音声の教師なし話者インデキシングのために、多数話者との類似度を用いたオフラインのインデキシング手法を提案する。音声データベースから構築した多数話者モデルによる話者識別スコアを成分として発話ごとに話者ベクトルを構成し、これをクラスタリングすることにより話者インデキシングを実現する。 また討論においては司会が特別な役割を持ち、その発話が非常に多いという特徴から、司会のみ固有の話者モデルを構築し、クラスタリングに先立って話者照合を行うことでさらなる精度の向上を図る。実際の討論音声を用いた実験の結果、88.2%のインデキシング精度を得た。 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | We address an unsupervised speaker indexing method using similarity measures to the speakers in large scale speech database. At first, speaker characterization vectors are generated by speaker identification with a large number of speakers of speech database. Then, the dimension of vectors is reduced by KL-transformation and these vectors are clustered into participant speakers of discussion. To enhance the indexing, we also introduce a model of chairperson who speaks more often than others, and perform speaker verification before clustering. Indexing accuracy of 88.2% is achieved using real discussion speech. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2002, 号 65(2002-SLP-042), p. 53-58, 発行日 2002-07-12 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||