@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00196928,
 author = {岩月, 道生 and 周藤, 唯 and 糸山, 克寿 and 西田, 健次 and 中臺, 一博},
 book = {第81回全国大会講演論文集},
 issue = {1},
 month = {Feb},
 note = {本稿では，環境音響信号に対してキャプションを自動生成する手法を検討する．画像に対するキャプション生成手法は show and tell として知られ，深層学習を用いた研究が多く存在する．一方音響信号は時系列の一次元信号であり，かつ各音イベントが可変長であるから画像で用いられる手法をそのまま適用することは難しい．そこで，1) 音響信号を複数の時分割スペクトログラムとすることにより音響信号を画像化し，2) RNNを用いることで可変長の時系列信号を扱えるようにした listen & tell 手法を提案する．提案手法に基づき音の種類とタイミングをキャプションするモデルを構築し、合成データを用いてその有効性を確認した．},
 pages = {407--408},
 publisher = {情報処理学会},
 title = {Listen and Tell: 深層学習を用いた音響シーンのキャプション生成},
 volume = {2019},
 year = {2019}
}