| Item type |
SIG Technical Reports(1) |
| 公開日 |
2016-12-13 |
| タイトル |
|
|
タイトル |
1次元畳み込みニューラルネットワークによる特徴抽出を用いた話者認識 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Speaker Recognition Based on Features through 1-Dimensional Convolutional Neural Network |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識,話者認識 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
早稲田大学大学院先進理工学研究科電機・情報生命専攻 |
| 著者所属 |
|
|
|
早稲田大学大学院先進理工学研究科電機・情報生命専攻 |
| 著者所属 |
|
|
|
早稲田大学大学院先進理工学研究科電機・情報生命専攻 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Electrical Engineering and Bioscience, Graduate School of Adavanced Science and Engineering. Waseda University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Electrical Engineering and Bioscience, Graduate School of Adavanced Science and Engineering. Waseda University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Electrical Engineering and Bioscience, Graduate School of Adavanced Science and Engineering. Waseda University |
| 著者名 |
園田, 祥平
笠原, 勇布
井上, 真郷
|
| 著者名(英) |
Shohei, Sonoda
Yufu, Kasahara
Masato, Inoue
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
話者認識法の多くは,メル周波数ケプストラム係数 (MFCC) ,i-vector といった声の特徴量を利用している.これらの特徴量は,どのように音を聞いているのか,という知見に基づいて抽出される. しかし,脳内での正確な認識プロセスは,未だ解明されていない.本稿では,機械学習,その中でもデイープラーニングの手法である 1 次元畳み込みニューラルネットワークによる,新たな声の特徴量の抽出方法を提案する.その結果,提案手法は認識精度の大幅に改善した.また,提案手法が話者を認識するためのより良い特徴量が抽出することに成功したことを示す. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Most of the speaker recognition methods utilize the voice features of the mel-frequency cepstrum coefficients (MFCCs) and the i-vector. These features are extracted based on the knowledge how human recognize voices, but the exact recognition process in our brain is still under the question. In this paper, we propose a new method to extract voice features by using machine learning techniques, especially, the deep learning by an 1-dimensional convolutional neural network. As a result, the proposed method showed significant improvement of recognition accuracy, which implies successful extraction of the better speaker recognition features. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2016-SLP-114,
号 5,
p. 1-5,
発行日 2016-12-13
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |