Item type |
SIG Technical Reports(1) |
公開日 |
2021-11-24 |
タイトル |
|
|
タイトル |
実況における発話ラベル予測 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Utterance Label Prediction in Live Commentary |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
マルチモーダル |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
産業技術総合研究所/東京大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所/お茶の水女子大学 |
著者所属 |
|
|
|
産業技術総合研究所/東京大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者名 |
上田, 佳祐
石垣, 達也
小林, 一郎
宮尾, 祐介
高村, 大也
|
著者名(英) |
Keisuke, Ueda
Tatsuya, Ishigaki
Ichiro, Kobayashi
Yusuke, Miyao
Hiroya, Takamura
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,実況テキストにおける発話ラベル予測について述べる.実況の一例として,レーシングゲーム実況に着目する.例えば,「ターン 6,ここで追い抜いていけるか」という実況発話においては「サーキット場での位置」や「未来のイベントに関する情報」が述べられている.本研究ではこのような言及対象や発話内容に関する情報を,発話ラベルとして表現し,1) 分類対象発話テキストが与えられラベルを予測する設定,2) 発話テキストは与えられず,その時点までの文脈情報やレース状況を主に用いて次の発話のラベルを予測する 2 つのタスクを扱う.前者は従来の発話行為推定などの言語理解の問題に関連し,後者は言語生成におけるプランニングの問題と関連する.提案タスクでは,テキスト入力だけでなく,時間推移やレース映像を撮影するカメラの視点など複数のモダリティにより表現された情報も用いラベル予測を行う点が従来研究とは異なり,本研究では複数モダリティを活用するいくつかのモデルを比較する.実験より,ニューラルネットワークによる手法は最頻出ラベルを予測するたベースライン手法と比較し,特に分類対象発話テキストが与えられる設定において,ベースライン手法よりも高い F 値を得ることを確認した.一方,複数モダリティを考慮するモデルや発話テキストが与えられない設定においては単純なベースラインよりも性能が低く,提案課題が挑戦的な課題であることが分かった. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-139,
号 1,
p. 1-6,
発行日 2021-11-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |