WEKO3
アイテム
単一言語コーパスにおける文の自動対応付け手法
https://ipsj.ixsq.nii.ac.jp/records/10517
https://ipsj.ixsq.nii.ac.jp/records/105170e51e745-440c-4444-9265-235560aae108
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-10-15 | |||||||
タイトル | ||||||||
タイトル | 単一言語コーパスにおける文の自動対応付け手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Sentence Alignment for Monolingual Corpora | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語 | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者名 |
平尾, 努
× 平尾, 努
|
|||||||
著者名(英) |
Tsutomu, Hirao
× Tsutomu, Hirao
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 一般に,同じ内容について書かれた異なる文書を対象として,同一内容の文間に対応付け(アラインメント)を行ったコーパスを作成することができる.こうした対応付けコーパスは,構文変形規則や言い換え規則など,文生成に関する知見を得ることができ,自然言語処理の基盤技術を開発するうえで必須である.特に,文書要約研究の立場からは,上記だけでなく,学習・評価データとしても重要な価値を持つ.こうしたコーパスを大量に収集するためには,高性能な自動対応付け手法が必要とされる.しかし,従来手法は,類似度を計算するためのテキストの基本単位や類似尺度そのものに問題があった.そこで本論文では,対応付けの基本単位として依存構造木の経路を用い,各経路に最も類似する経路を有する文を対応文とする手法を提案する.単語の言い換えを吸収するため,経路を単語とその意味カテゴリからなるノードの系列と見なし,系列パターンに基づき経路間の類似度を決定する.Text Summarization Challenge(TSC)で作成された単一文書,複数文書要約のデータを用いて提案手法による対応付け結果を人間による対応付け結果と比較した結果,単一文書要約データの場合でF値0.95~0.97程度,複数文書要約データの場合にF 値0.72~0.83程度という従来手法より高い成績であった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Monolingual aligned corpora are valuable for natural language processing. In order to generate text, we can learn various kinds of knowledge from such corpora. For instance, summary sentences aligned with sentences from original documents are useful for the study of automatic summarization. However, conventional methods are not suitable for one-to-many or many-to-one correspondence. Moreover, the similarity measure for alignment is not optimal. In this paper, we propose an automatic alignment method for these monolingual corpora. First, we transform a sentence into the set of paths in its dependency structure. Next, we calculate similarity between the paths based on ESK (Extended String Subsequence Kernel) which consider both sequential patterns and semantic labels. By using these procedures, we can derive a one-to-many or many-to-one correspondence among sentences. Experimental results using TSC (Text Summarization Challenge) corpora, which align summary sentences with original sentences, showed that our method obtained 0.95窶骭0.97 F-measure for single document summarization data and 0.72窶骭0.83 F-measure for multiple document summarization data. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 46, 号 10, p. 2533-2545, 発行日 2005-10-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |