WEKO3
アイテム
視覚と言語によるナビゲーション課題への言語に対応付けられた生成的な方策
https://ipsj.ixsq.nii.ac.jp/records/211148
https://ipsj.ixsq.nii.ac.jp/records/211148e04114c2-68e3-4e3f-8008-f94de66b7305
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2021-05-13 | |||||||||
| タイトル | ||||||||||
| タイトル | 視覚と言語によるナビゲーション課題への言語に対応付けられた生成的な方策 | |||||||||
| タイトル | ||||||||||
| 言語 | en | |||||||||
| タイトル | Generative Language-Grounded Policy in Vision-and-Language Navigation | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | 自然言語処理 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| 理化学研究所革新知能統合研究センター/JSTさきがけ | ||||||||||
| 著者所属 | ||||||||||
| New York University Courant Institute/New York University Center for Data Science/CIFAR | ||||||||||
| 著者名 |
栗田, 修平
× 栗田, 修平
× Kyunghyun, Cho
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 人間の持っている日常的な知覚- 視覚や動作の認識,言語理解など- を統合することと,人間から与えられた言語指示に従って判断し行動することは,本来は別の課題である.しかし,近年の視覚と言語による課題を解くニューラルネットワークでは,これらをいずれも入力情報として取り扱い,相互アテンションにより統合しようとしている.このアプローチは既存手法で遍く見られるが,この欠点を指摘するとともに,このアプローチを取らないニューラルネットワークの視覚と言語によるナビゲーション課題への応用を紹介する. | |||||||||
| 論文抄録(英) | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | The two abilities of humans: integrating human perceptions - vision, action recognition and language comprehension - and decision-making of actions following the given instructions, are essentially two different tasks. However, recent neural networks for vision-and-language tasks take both of them as input information and try to integrate them by the cross-attention between them. Even though this formalism is frequently applied in existing studies, we will discuss the shortcomings of this formalism and introduce the application of neural networks that do not take this formalism to the vision-and-language navigation tasks. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AA11131797 | |||||||||
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM) 巻 2021-CVIM-226, 号 1, p. 1-8, 発行日 2021-05-13 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2188-8701 | |||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||