WEKO3
アイテム
語彙的結束性と単語重要度に基づくテキストセグメンテーション
https://ipsj.ixsq.nii.ac.jp/records/17732
https://ipsj.ixsq.nii.ac.jp/records/17732eb6977b2-e7e0-4f8f-a10f-091a585f5a82
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-05-15 | |||||||
タイトル | ||||||||
タイトル | 語彙的結束性と単語重要度に基づくテキストセグメンテーション | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text Segmentation Based on Lexical Cohesion and World Importance | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
株式会社NTTデータ技術開発本部オープンシステムセンタ | ||||||||
著者所属 | ||||||||
株式会社NTTデータ技術開発本部オープンシステムセンタ | ||||||||
著者所属 | ||||||||
株式会社NTTデータ技術開発本部北米技術センタ | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Open Systems Center, Reserch and Development | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Open Systems Center, Reserch and Development | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Technical Center of California, Reserch and Development Headquarters, NTT DATA CORPORATION | ||||||||
著者名 |
平尾, 努
× 平尾, 努
|
|||||||
著者名(英) |
Hirao, Tsutomu
× Hirao, Tsutomu
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 情報検索・文書要約・文書分類などに代表される文書処理技術の精度向上や文書の構造解析に必要な基盤技術としてテキストセグメンテーション技術が注目されている.テキストセグメンテーションの代表的な手法として,文書内の同一語の繰り返しによる語の結束性を用いるTextTiling法が提案されている.しかし,TextTiling法では比較的短い文書を処理対象とした場合には十分な精度を得られるとは限らない.本稿では,文書内の単語の共起を考慮した語の結束性に基づくテキストセグメンテーション法と文書内における文の重要度の変化に基づくテキストセグメンテーション法をそれぞれ提案し,さらに,両手法を相補的に統合することで短い文書でも適用可能である高精度なテキストセグメンテーション法を新たに提案する.1件が20文程度の新聞記事326件を対象として,その形式段階を話題境界の正解データに用いて提案手法を評価した.その結果,形式段落との完全一致では適合率31.8%,再現率21.3%,形式段落の近傍での出力も正解に含めた場合には適合率64.7%,再現率43.5%であり,既存手法より高精度なテキストセグメンテーション法を実現できた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Text segmentation is one of the fundamental technologies indispensiable to analyzing the document structure and improving the accuracy of text processing technology, such as information retrieval, text summarization,and text categorization. TextTiling method have been proposed as a major text segmentation method, which is based on lexucal choesion regarding the repetition of the same words in a document. However, using TextTiling method for short documents, we do not always get enough accuracy. In this paper, we first propose two text segmentation methods; one is based on lexical chesion considering co-occurrences of words, and the other is based on the changes of the importance of the each sentence in a document. Next, we propose a new text segmentation method integrating these two methods to get high accuracy even for short documents. We evaluate our method in the view of precision and recall rates. In our experiment, we use paragraph borders in newspaper articles as correct segment borders on 326 newspaper articles each of which contains about 20 sentences. As the result, it is shown that our methods are more accurate compared whith the conventional methods; 31.8% on the precision rate and 21.3% on the recall rate in case that paragraph borders in newspaper articles regarded as correct segment borders, and 64.7% on the precision reta and 43.5% on the recall rate in case proximity of paragraph borders regarded as correct segment borders. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 41, 号 SIG03(TOD6), p. 24-36, 発行日 2000-05-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |