ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 全国大会
  2. 81回
  3. 人工知能と認知科学

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

https://ipsj.ixsq.nii.ac.jp/records/196928
https://ipsj.ixsq.nii.ac.jp/records/196928
df9f8f02-b5eb-4df5-855d-b8fac236e6c9
名前 / ファイル ライセンス アクション
IPSJ-Z81-6T-03.pdf IPSJ-Z81-6T-03.pdf (492.2 kB)
Copyright (c) 2019 by the Information Processing Society of Japan
Item type National Convention(1)
公開日 2019-02-28
タイトル
タイトル Listen and Tell: 深層学習を用いた音響シーンのキャプション生成
言語
言語 jpn
キーワード
主題Scheme Other
主題 人工知能と認知科学
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
東工大
著者所属
東工大
著者所属
東工大
著者所属
東工大
著者所属
東工大
著者名 岩月, 道生

× 岩月, 道生

岩月, 道生

Search repository
周藤, 唯

× 周藤, 唯

周藤, 唯

Search repository
糸山, 克寿

× 糸山, 克寿

糸山, 克寿

Search repository
西田, 健次

× 西田, 健次

西田, 健次

Search repository
中臺, 一博

× 中臺, 一博

中臺, 一博

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,環境音響信号に対してキャプションを自動生成する手法を検討する.画像に対するキャプション生成手法は show and tell として知られ,深層学習を用いた研究が多く存在する.一方音響信号は時系列の一次元信号であり,かつ各音イベントが可変長であるから画像で用いられる手法をそのまま適用することは難しい.そこで,1) 音響信号を複数の時分割スペクトログラムとすることにより音響信号を画像化し,2) RNNを用いることで可変長の時系列信号を扱えるようにした listen & tell 手法を提案する.提案手法に基づき音の種類とタイミングをキャプションするモデルを構築し、合成データを用いてその有効性を確認した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00349328
書誌情報 第81回全国大会講演論文集

巻 2019, 号 1, p. 407-408, 発行日 2019-02-28
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 22:33:52.586979
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3