WEKO3
アイテム
音声/非音声判別法を用いた時間圧縮音声再生法
https://ipsj.ixsq.nii.ac.jp/records/56951
https://ipsj.ixsq.nii.ac.jp/records/56951e34f528e-beac-4b70-9a5f-1b628500e058
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-12-22 | |||||||
タイトル | ||||||||
タイトル | 音声/非音声判別法を用いた時間圧縮音声再生法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Time-compressed speech playing method using voice/non-voice classification | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
会津大学大学院コンピュータ理工学研究科 | ||||||||
著者所属 | ||||||||
会津大学大学院コンピュータ理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Computer Science and Engineering, The Univ. of Aizu | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Computer Science and Engineering, The Univ. of Aizu | ||||||||
著者名 |
竹内, 伸-
× 竹内, 伸-
|
|||||||
著者名(英) |
Shin'ichi, TAKEUCHI
× Shin'ichi, TAKEUCHI
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年HDDレコーダやDVDレコーダ等の映像録画機器の普及に伴い,大量の映像・音声に関するマルチメディアの蓄積が容易になっている.データの蓄積は専用機械によって自動的に行われる一方データの視聴は人間が行わざるを得ないため,大量のデータを視聴する場合には視聴速度の向上が求められる.本報告では元となるマルチメディアデータの音声データに着目し,データ中の音声区間の再生を主とした時間圧縮音声再生法について提案する.提案手法は我々がこれまで提案してきた特徴量Block Cepstrum Fluxを用いた音声/非音声判別手法を用いて対象となる音声区間を検出した後に定常部削減を行う,音声/非音声のパターン認識に基づく時間圧縮音声再生法である.元となるデータから非音声区間を取り除くことにより音声区間を残すことになるため,一律に圧縮した場合よりも話速が遅くなり,より聞き取り易い圧縮音声を生成することが可能となる.圧縮音声を視聴した主観評価実験の結果はデータを一律に圧縮するPICOLA法を単独で用いた場合よりも良好な結果を得ることができ,提案手法とPICOLA法を併用することも可能であることを示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently, the effectiveness of audio-visual machine improves and they becomes to be able to storage many multimedia data. Although to storing data is done by machine automatically, to watch data is done by human and it is bottle-neck for improvement of multimedia data processing. This report attentions to sound part of multimedia data and proposes time-compressed speech playing method. The proposed method uses feature parameter Block Cepstrum Flux we have proposed and it can classify voice and non-voice section in sound data. The Proposed method picks out voice section and deletes continuous part. By to remove non-voice section from sound data, it can create compressed data with more slowly voice than the compressed data with constant compress rate. The experimental result for compressed sound listening test shows that the proposed method brings more better impression than constant compress rate. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2005, 号 127(2005-SLP-059), p. 163-168, 発行日 2005-12-22 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |