@techreport{oai:ipsj.ixsq.nii.ac.jp:00057427, author = {長谷川, 将宏 and 秋田, 祐哉 and 河原, 達也 and Masahiro, Hasegawa and Yuya, Akita and Tatsuya, Kawahara}, issue = {55(2001-SLP-036)}, month = {Jun}, note = {パラグラフの先頭部分に頻出する特徴的な単語(談話標識)を用いて講演音声に対して自動インデキシングを行う手法を提案する。本研究では、種々の講演のなかでも流れが比較的明確で共通性のある学会講演を対象とする。学習セットの講演の書き起こしからポーズ情報を用いてパラグラフ境界を検出し、統計的言語モデルを用いて句点を挿入して各パラグラフの先頭の一文を抽出する。その中に含まれる名詞からtf・idfに基づいて談話標識を選定する。評価データの各文について談話標識のtf・idf値を計算し、その合計が閾値以上であればインデックスを付与する。実際の講演音声の書き起こしと認識結果に対して評価を行った結果、再現率は90%程度(適合率は20%程度)となり、高精度にインデキシングできた。, We address a method of automatic indexing for lecture speech by suggestive words that frequently appear in the initial sentences in each paragraph, and we define such words as discourse markers. We deal with academic presentations because these presentations can be segmented into relatively distinct parts. At first, we segment transcriptions into paragraphs and sentences by using aver age length of pauses during the lecture as a threshold. Next, each paragraph is segmented into sentences by using a statistical languag e model. Then, discourse markers are selected from nouns based on tf and idf statistics. We evaluated these discourse markers with recall and precision rate on indexing task of the lecture speech. Sentences are indexed if sum of the tf-idf value of detected discourse markers exceeds a threshold. As a result, we achieved a recall rate of 90%.}, title = {談話標識の抽出に基づいた講演音声の自動インデキシング}, year = {2001} }