@techreport{oai:ipsj.ixsq.nii.ac.jp:00217376,
 author = {山田, 楓也 and 石田, 繁巳 and 白石, 陽},
 issue = {19},
 month = {Mar},
 note = {近年，遠隔で会議を行う Web 会議の利用が広がっている．Web 会議では画面構成やサイズの制約により他の参加者の様子を読み取りにくく，誰がいつ発話し始めるのかを予測しづらいことから発話衝突が発生し，会議の進行が妨げられるという問題がある．これに対して，著者らは発話前の予備動作を用いて数秒後の発話状態を予測する手法を提案している．先行研究では，頭部運動，視線移動，口の開きに関する特徴量を Web 会議映像から抽出して被験者ごとに予備動作を認識することで，会議参加者の数秒後の発話予測を行う．初期的評価として被験者3名の発話予測を行った結果，F-maesure で 7 割から 9 割の精度で予測が可能であることを確認した．しかし，被験者を増やして先行研究の手法を適用した結果，被験者ごとの精度のばらつきが発生した．より多くの人に対応するため，本稿では先行研究を拡張し，ミクロな顔特徴及び他者の発話状態を考慮することで予測精度の向上を図る．被験者 9 名について Web 会議の映像を記録し，記録した映像から個人ごとに有効な特徴量を抽出して発話予測モデルを構築した．構築した発話予測モデルの精度を評価した結果，予測精度は平均 F-measure 0.694 となり，ミクロな顔特徴を用いることで予測精度が向上することを確認した．特徴量重要度の分析結果から，発話予測には口の開きという共通の特徴量と個人ごとに異なる特徴量を用いる必要があることを示した．},
 title = {Web会議におけるミクロな顔特徴に着目した発話予測手法の検討},
 year = {2022}
}