WEKO3
-
RootNode
アイテム
高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得
https://ipsj.ixsq.nii.ac.jp/records/11824
https://ipsj.ixsq.nii.ac.jp/records/11824e9e7e5a8-458c-4669-a3fa-7972a5611fe6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-11-15 | |||||||
タイトル | ||||||||
タイトル | 高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Refinement of a POS Tagger Using a Reliable Parser and Plain Text Corpora | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語処理 | |||||||
著者所属 | ||||||||
株式会社東芝研究開発センター/現在,知識メディアラボラトリ | ||||||||
著者所属 | ||||||||
株式会社東芝研究開発センター/現在,知識メディアラボラトリ | ||||||||
著者所属 | ||||||||
株式会社東芝研究開発センター/現在,知識メディアラボラトリ | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center/Presently with Knowledge Media Laboratory | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center/Presently with Knowledge Media Laboratory | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center/Presently with Knowledge Media Laboratory | ||||||||
著者名 |
平川, 秀樹
小野, 顕司
吉村, 裕美子
× 平川, 秀樹 小野, 顕司 吉村, 裕美子
|
|||||||
著者名(英) |
Hideki, Hirakawa
Kenji, Ono
Yumiko, Yoshimura
× Hideki, Hirakawa Kenji, Ono Yumiko, Yoshimura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 大規模コーパスから言語規則や言語知識を獲得するアプローチは,人手による規則開発や知識収集の限界を打ち破るうえでも重要であるが,大規模なタグ付けコーパスを人手を介して準備する手法は,そのコストからいってまだ実際的でない.本論文では,プレインテキストコーパスから,既存の品詞タガーの精度を向上させる品詞判定規則の自動獲得を行う方式を提案する.本方式は,APRAS(Automatic POS Rule Acquisition System)と呼ぶシステムに適用されており,既存の機械翻訳システムの品詞タグ付け規則と構文解析規則という異種の言語規則を組み合わせ利用して,大規模コーパスから品詞判定規則を抽出する.大規模な英文記事コーパスを対象とした実験の結果,獲得された規則は,トレーニングコーパスにない文の1.7%に対して適用され,そのうちの78.4%のタグ付け結果に改善が見られた.また,規則対象文のタグ付け処理と構文解析処理にたいして,15.5%の速度向上が見られ,構文解析可能な文の数は,8.0%増加するという結果を得た. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a new unsupervised learning method for obtainingEnglish part-of-speech (POS) disambiguation rules which would improvethe accuracy of a POS tagger. This method has been implemented in theexperimental system APRAS (Automatic POS Rule Acquisition System),which extracts POS disambiguation rules from plain text corpora byutilizing different types of coded linguistic knowledge, i.e., POStagging rules and syntactic parsing rules, which are already stored ina fully implemented MT system. In our experiment, the obtained ruleswere applied to 1.7% of the sentences in a non-training corpus. Forthis group of sentences, 78.4% of the changes made in tagging resultswere an improvement. We also saw a 15.5% improvement in tagging andparsing speed and an 8.0% increase of parsable sentences. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 42, 号 11, p. 2630-2639, 発行日 2001-11-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |