@article{oai:ipsj.ixsq.nii.ac.jp:00240012, author = {松田, 裕貴 and 榊原, 太一 and 真弓, 大輝 and 松田, 裕貴 and 水本, 旭洋 and 安本, 慶一 and Hiroki, Matsuda and Taichi, Sakakibara and Daiki, Mayumi and Yuki, Matsuda and Teruhiro, Mizumoto and Keiichi, Yasumoto}, issue = {10}, journal = {情報処理学会論文誌}, month = {Oct}, note = {近年,各テレビ放送局において,個人を特定しない形式で,インターネット接続されたテレビから視聴開始時刻や視聴終了時刻等を含む非特定視聴履歴データを収集し,利活用する取り組みが進められている.しかし,各放送局は自局の非特定視聴履歴データしか利用できないため,膨大なデータを蓄積しているにもかかわらず,有用な知見を得るまでに至っていないのが現状である.さらに,非特定視聴履歴データの収集方式やデータ粒度は,各局各様となっており,各局が蓄積したデータを統合し,利用することもできていない.そこで本論文では,各局が独自の方式で取得している非特定視聴履歴データを放送局間で統合する手法を提案し,評価するためのシミュレータ設計と実装を行い,提案手法の評価を行う.提案手法では,各局の視聴履歴データのうち,共通しているIPアドレス・郵便番号・メーカID・ブラウザメジャーバージョン・ブラウザマイナーバージョンの5項目でテレビ受像機を分離処理する.そして,分離された中でこれらの5項目が一致するテレビのうち,さらにチャンネル遷移時刻が一致するテレビを同一テレビと推定する.また,視聴者行動を再現するシミュレータを設計し,そのシミュレータから合成された視聴履歴データに対して,本手法を適用した結果,生成された250万台分のデータのうち約241万台のテレビIDのマッチングに成功し,再現率96.5%であることを示した., Recently, TV broadcasters have been collecting and utilizing non-personal TV viewing log data, including start and end times of viewing, from TVs connected to the Internet in a format that does not identify individual viewers. However, since each broadcaster can only use its own non-personal TV viewing log data, it has not yet been able to obtain useful knowledge despite the vast amount of data it has accumulated. In addition, the collection methods and data granularity of non-personal TV viewing log data vary from station to station, and the data accumulated by each station cannot be integrated and used. In this paper, we propose a method for matching non-specific viewing history data collected by each broadcaster using its own method, and design and implement a simulator to evaluate the proposed method. The proposed method estimates that TVs whose channel transition timing matches five items collected at the time of viewing history data collection (IP address, zip code, manufacturer ID, browser major version, and browser minor version) are the same TVs. In addition, we designed a simulator that reproduces viewer behavior and applied this method to the viewing history data synthesized from the simulator. As a result, we succeeded in matching approximately 2.41 million TVs out of the 2.5 million units of data generated, showing an identification rate of 96.5%.}, pages = {1488--1500}, title = {非特定テレビ視聴履歴データの放送局間統合手法}, volume = {65}, year = {2024} }