| Item type |
National Convention(1) |
| 公開日 |
2019-02-28 |
| タイトル |
|
|
タイトル |
Listen and Tell: 深層学習を用いた音響シーンのキャプション生成 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
人工知能と認知科学 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
東工大 |
| 著者所属 |
|
|
|
東工大 |
| 著者所属 |
|
|
|
東工大 |
| 著者所属 |
|
|
|
東工大 |
| 著者所属 |
|
|
|
東工大 |
| 著者名 |
岩月, 道生
周藤, 唯
糸山, 克寿
西田, 健次
中臺, 一博
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,環境音響信号に対してキャプションを自動生成する手法を検討する.画像に対するキャプション生成手法は show and tell として知られ,深層学習を用いた研究が多く存在する.一方音響信号は時系列の一次元信号であり,かつ各音イベントが可変長であるから画像で用いられる手法をそのまま適用することは難しい.そこで,1) 音響信号を複数の時分割スペクトログラムとすることにより音響信号を画像化し,2) RNNを用いることで可変長の時系列信号を扱えるようにした listen & tell 手法を提案する.提案手法に基づき音の種類とタイミングをキャプションするモデルを構築し、合成データを用いてその有効性を確認した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00349328 |
| 書誌情報 |
第81回全国大会講演論文集
巻 2019,
号 1,
p. 407-408,
発行日 2019-02-28
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |