高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得

平川, 秀樹; 小野, 顕司; 吉村, 裕美子; Hideki, Hirakawa; Kenji, Ono; Yumiko, Yoshimura

WEKO3

インデックスツリー

RootNode

アイテム

高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得

https://ipsj.ixsq.nii.ac.jp/records/11824

名前 / ファイル	ライセンス	アクション
IPSJ-JNL4211011.pdf (1.6 MB)	Copyright (c) 2001 by the Information Processing Society of Japan
オープンアクセス

Item type

Journal(1)

公開日

2001-11-15

タイトル

高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得

タイトル

言語

タイトル

Automatic Refinement of a POS Tagger Using a Reliable Parser and Plain Text Corpora

言語

jpn

キーワード

主題Scheme

Other

主題

論文

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_6501

資源タイプ

journal article

その他タイトル

その他のタイトル

自然言語処理

著者所属

株式会社東芝研究開発センター／現在，知識メディアラボラトリ

著者所属

株式会社東芝研究開発センター／現在，知識メディアラボラトリ

著者所属

株式会社東芝研究開発センター／現在，知識メディアラボラトリ

著者所属(英)

Toshiba R&D Center/Presently with Knowledge Media Laboratory

著者所属(英)

Toshiba R&D Center/Presently with Knowledge Media Laboratory

著者所属(英)

Toshiba R&D Center/Presently with Knowledge Media Laboratory

著者名

平川, 秀樹小野, 顕司吉村, 裕美子

著者名(英)

Hideki, Hirakawa Kenji, Ono Yumiko, Yoshimura

論文抄録

内容記述タイプ

Other

内容記述

大規模コーパスから言語規則や言語知識を獲得するアプローチは，人手による規則開発や知識収集の限界を打ち破るうえでも重要であるが，大規模なタグ付けコーパスを人手を介して準備する手法は，そのコストからいってまだ実際的でない．本論文では，プレインテキストコーパスから，既存の品詞タガーの精度を向上させる品詞判定規則の自動獲得を行う方式を提案する．本方式は，APRAS（Automatic POS Rule Acquisition System）と呼ぶシステムに適用されており，既存の機械翻訳システムの品詞タグ付け規則と構文解析規則という異種の言語規則を組み合わせ利用して，大規模コーパスから品詞判定規則を抽出する．大規模な英文記事コーパスを対象とした実験の結果，獲得された規則は，トレーニングコーパスにない文の1.7%に対して適用され，そのうちの78.4%のタグ付け結果に改善が見られた．また，規則対象文のタグ付け処理と構文解析処理にたいして，15.5%の速度向上が見られ，構文解析可能な文の数は，8.0%増加するという結果を得た．

論文抄録(英)

内容記述タイプ

Other

内容記述

This paper proposes a new unsupervised learning method for obtainingEnglish part-of-speech (POS) disambiguation rules which would improvethe accuracy of a POS tagger. This method has been implemented in theexperimental system APRAS (Automatic POS Rule Acquisition System),which extracts POS disambiguation rules from plain text corpora byutilizing different types of coded linguistic knowledge, i.e., POStagging rules and syntactic parsing rules, which are already stored ina fully implemented MT system. In our experiment, the obtained ruleswere applied to 1.7% of the sentences in a non-training corpus. Forthis group of sentences, 78.4% of the changes made in tagging resultswere an improvement. We also saw a 15.5% improvement in tagging andparsing speed and an 8.0% increase of parsable sentences.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00116647

書誌情報

情報処理学会論文誌

巻 42, 号 11, p. 2630-2639, 発行日 2001-11-15

ISSN

収録物識別子タイプ

ISSN

収録物識別子

1882-7764

戻る

views

See details

	Views

Versions

Ver.1

2025-01-23 01:59:12.605120

Show All versions

Cite as

吉村, 裕美子, 2001: 2630–2639 p.

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得

× 平川, 秀樹小野, 顕司吉村, 裕美子

× Hideki, Hirakawa Kenji, Ono Yumiko, Yoshimura

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得

× 平川, 秀樹 小野, 顕司 吉村, 裕美子

× Hideki, Hirakawa Kenji, Ono Yumiko, Yoshimura

Versions

Share

Cite as

エクスポート

× 平川, 秀樹小野, 顕司吉村, 裕美子