@techreport{oai:ipsj.ixsq.nii.ac.jp:00214095, author = {上田, 佳祐 and 石垣, 達也 and 小林, 一郎 and 宮尾, 祐介 and 高村, 大也 and Keisuke, Ueda and Tatsuya, Ishigaki and Ichiro, Kobayashi and Yusuke, Miyao and Hiroya, Takamura}, issue = {1}, month = {Nov}, note = {本稿では,実況テキストにおける発話ラベル予測について述べる.実況の一例として,レーシングゲーム実況に着目する.例えば,「ターン 6,ここで追い抜いていけるか」という実況発話においては「サーキット場での位置」や「未来のイベントに関する情報」が述べられている.本研究ではこのような言及対象や発話内容に関する情報を,発話ラベルとして表現し,1) 分類対象発話テキストが与えられラベルを予測する設定,2) 発話テキストは与えられず,その時点までの文脈情報やレース状況を主に用いて次の発話のラベルを予測する 2 つのタスクを扱う.前者は従来の発話行為推定などの言語理解の問題に関連し,後者は言語生成におけるプランニングの問題と関連する.提案タスクでは,テキスト入力だけでなく,時間推移やレース映像を撮影するカメラの視点など複数のモダリティにより表現された情報も用いラベル予測を行う点が従来研究とは異なり,本研究では複数モダリティを活用するいくつかのモデルを比較する.実験より,ニューラルネットワークによる手法は最頻出ラベルを予測するたベースライン手法と比較し,特に分類対象発話テキストが与えられる設定において,ベースライン手法よりも高い F 値を得ることを確認した.一方,複数モダリティを考慮するモデルや発話テキストが与えられない設定においては単純なベースラインよりも性能が低く,提案課題が挑戦的な課題であることが分かった.}, title = {実況における発話ラベル予測}, year = {2021} }