Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

岩月, 道生; 周藤, 唯; 糸山, 克寿; 西田, 健次; 中臺, 一博

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

https://ipsj.ixsq.nii.ac.jp/records/196928

名前 / ファイル	ライセンス	アクション
IPSJ-Z81-6T-03.pdf (492.2 kB)	Copyright (c) 2019 by the Information Processing Society of Japan

Item type

National Convention(1)

公開日

2019-02-28

タイトル

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

言語

jpn

キーワード

主題Scheme

Other

主題

人工知能と認知科学

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

東工大

著者所属

東工大

著者所属

東工大

著者所属

東工大

著者所属

東工大

著者名

岩月, 道生
周藤, 唯
糸山, 克寿
西田, 健次
中臺, 一博

論文抄録

内容記述タイプ

Other

内容記述

本稿では，環境音響信号に対してキャプションを自動生成する手法を検討する．画像に対するキャプション生成手法は show and tell として知られ，深層学習を用いた研究が多く存在する．一方音響信号は時系列の一次元信号であり，かつ各音イベントが可変長であるから画像で用いられる手法をそのまま適用することは難しい．そこで，1) 音響信号を複数の時分割スペクトログラムとすることにより音響信号を画像化し，2) RNNを用いることで可変長の時系列信号を扱えるようにした listen & tell 手法を提案する．提案手法に基づき音の種類とタイミングをキャプションするモデルを構築し、合成データを用いてその有効性を確認した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00349328

書誌情報

第81回全国大会講演論文集

巻 2019, 号 1, p. 407-408, 発行日 2019-02-28

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 22:33:52.586979

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

× 岩月, 道生

× 周藤, 唯

× 糸山, 克寿

× 西田, 健次

× 中臺, 一博

Versions

Share

Cite as

エクスポート