@techreport{oai:ipsj.ixsq.nii.ac.jp:00055812, author = {西山, 正紘 and 北原, 鉄朗 and 駒谷, 和範 and 尾形, 哲也 and 奥乃, 博 and Masahiro, NISHIYAMA and Tetsuro, KITAHARA and Kazunori, KOMATANI and Tetsuya, OGATA and Hiroshi, G.OKUNO}, issue = {15(2007-MUS-069)}, month = {Feb}, note = {本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。, In this paper, we propose a framework that understands congruency between music and video based on similarity of accent structure and mood. There are two types of congruency between music and video: temporal congruency related to synchronization of accents and semantic congruency related to similarity of mood. Previous works, however, have dealt only with either congruency. We model the temporal congruency based on the correlation between accent feature sequences extracted from audio and visual content, and the semantic congruency based on mutual mapping between two feature spaces representing music and video respectively. Then, we integrate the two types of congruency as a weighted linear sum. Our experiments with real-world content show the effects of our method.}, title = {マルチメディアコンテンツにおける音楽と映像の調和度計算モデル}, year = {2007} }