@techreport{oai:ipsj.ixsq.nii.ac.jp:02006801, author = {阿達,藍留 and 塚越,柚季 and 大向,一輝}, issue = {28}, month = {Jan}, note = {本研究では,日本の地上デジタル放送における音声と字幕のデータを利用して放送内容をテキスト化し,大規模言語モデル(LLM)を用いてキーワード抽出および要約を行う手法を提案する.AIによる音声の書き起こしは,タイムスタンプによる映像との同期が容易である反面,人名・地名といった固有名詞や同音異義語の認識精度に課題が残る.一方,字幕データは主に専門のオペレーターによって付与されているためテキストとしての正確性は高いが,生放送においては入力作業に伴う遅延や,CM・放送時間の制約による文章の途中終了・欠落が起こり得る.そこで本研究では,LLMを用いて両者のデータを統合・相互補完することで,テキスト化の精度向上を図る.さらに,統合されたテキストから放送内容の理解に資する重要語句の抽出と要約生成を行う.本手法により,放送内容の効率的な分析が可能となるだけでなく,デジタルアーカイブにおける映像資料のメタデータ拡充や,検索性の向上に寄与することが期待される., This study proposes a method to digitize broadcast content by utilizing audio and subtitle data from Japanese digital terrestrial television, followed by keyword extraction and summarization using Large Language Models (LLMs). While AI-driven speech-to-text allows for easy synchronization with video via timestamps, it faces challenges regarding the recognition accuracy of proper nouns―such as personal and place names―and homonyms. Conversely, subtitle data, primarily provided by professional operators, offers high textual accuracy; however, live broadcasts may suffer from input-related delays or truncated and missing sentences due to commercials and airtime constraints. Therefore, this research aims to improve transcription accuracy by integrating and mutually complementing both data sources using LLMs. Furthermore, the system extracts key terms and generates summaries from the integrated text to facilitate understanding of the broadcast content. This method is expected not only to enable efficient analysis of broadcast content but also to contribute to enriching metadata and enhancing searchability for video materials in digital archives.}, title = {地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討}, year = {2026} }