WEKO3
アイテム
音響情報と映像情報の統合による多人数会話における話者決定技術
https://ipsj.ixsq.nii.ac.jp/records/56580
https://ipsj.ixsq.nii.ac.jp/records/56580bc0528a4-b0b5-4836-bd1d-12d6a1158a3d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-12-02 | |||||||
タイトル | ||||||||
タイトル | 音響情報と映像情報の統合による多人数会話における話者決定技術 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Speaker diarization of multi-party conversations based on audio and visual information integration | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者名 |
石塚健太郎
× 石塚健太郎
|
|||||||
著者名(英) |
Kentaro, Ishizuka
× Kentaro, Ishizuka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,音響情報と映像情報を確率的に統合して用いることにより,多人数会話において 「誰がいつ話したか」 を推定する話者決定 (Speaker Diarization) 技術を提案する.音響情報と映像情報は, 3 本のマイクロホンからなる三角形のマイクロホンアレイと魚眼レンズを装備した 2 台のカメラから構成される,多人数会話分析のための小規模システムを用いて収録される.このシステムで収録されたデータを元に話者決定を実現するために,提案技術は音声区間検出技術,話者方向推定技術,顔画像追跡技術から得られる発話の存在確率,話者の存在確率,会話参加者の存在確率を統合して用いる.日常的な雑談を用いた実験により,提案手法の話者決定における有効性が確認された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a speaker diarization method, which detects "who spoke when" in multi-party conversations, based on the probabilistic integration of audio and visual information. The audio and visual information is obtained from a compact system, which consists of two cameras with fisheye lenses and a triangular microphone array with three microphones, designed to analyze multi-party conversations. To realize speaker diarization, our proposed method utilizes the probability distributions of speech presence, speaker locations, and participants' face locations obtained with a speech activity detector, a direction of arrival based speaker location detector, and a face tracker, respectively. An experiment using real casual conversations revealed the advantages of such integration. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 123(2008-SLP-074), p. 25-30, 発行日 2008-12-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |