@techreport{oai:ipsj.ixsq.nii.ac.jp:00057163, author = {南條浩輝 and 北出, 祐 and 河原, 達也 and Hiroaki, Nanjo and Tasuku, Kitade and Tatsuya, Kawahara}, issue = {124(2003-SLP-049)}, month = {Dec}, note = {講演の自動インデキシングを目的として,談話標識の統計的選択に基づく手法をCSJ(日本語話し言葉コーパス)の重要分セットに適用した結果について報告する.本手法は,学会講演特有の談話構造の境界に頻出する談話標識を自動的に求めた上で,これに基づく統計的な重要度尺度を定義するものである.さらに話題語(キーワード)の統計量の基づく重要度尺度と統合も行う.CSJの19件の学会講演を対象に重要分抽出精度の評価を行い,(1)談話構造に基づく手法が有効であること,(2)話題語に基づく手法と統合することで相乗効果が得られること,(3)提案手法が音声認識誤りに対して頑健であること,(4)人間による抽出制度と比較して10-15%の低下であること,を確認した.また,文区切りの精度が重要分抽出に影響が大きいことが判明したので,韻律情報を用いることで文区切り精度および重要文抽出精度の改善を行った., Automatic extraction of key sentences from lecture audio archives is addressed. The method makes use of the characteristic expressions used in initial utterance of sections, which are defined as discourse markers and derived in a totally unsupervised manner based on word statistics. The statistics of the presumed discourse markers are then used to define the importance of the sentences. It is also combined with the conventional tf-idf measure of content words. Experimental results using lectures of CSJ (Corpus of Spontaneous Japanese) confirm the effectiveness of the method based on the discourse markers and its combination with the keyword-based method. It is also shown that the method is robust against ASR errors and sentence segmentation accuracy is more vital. Thus, we enhance the segmentation using prosodic information.}, title = {談話標識の統計的選択に基づいたCSJの講演からの重要文抽出}, year = {2003} }