WEKO3
アイテム
マレー語のステマーの開発とその評価
https://ipsj.ixsq.nii.ac.jp/records/61204
https://ipsj.ixsq.nii.ac.jp/records/612043b550892-b4ea-4fb7-92f3-c76eb76a8c6d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-01-15 | |||||||
タイトル | ||||||||
タイトル | マレー語のステマーの開発とその評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Development and Evaluation of a Malay Stemmer | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
群馬大学工学部 | ||||||||
著者所属 | ||||||||
群馬大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
群馬大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Gunma University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Gunma University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Gunma University | ||||||||
著者名 |
LimHuiTian
× LimHuiTian
|
|||||||
著者名(英) |
Lim, HuiTian
× Lim, HuiTian
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | マレー語を対象とした接辞処理のアルゴリズムを提案する.マレー語には,接辞が文法上の重要な役割を果たすという特徴があり,接辞が語幹に付く仕組みが複雑である.英語などの他の言語では,末尾の語形変化や接尾辞を繰り返し除去する単純なステマーが用いられているが,そのようなステマーをマレー語に適用しても接辞処理の効果が得られない.マレー語の接辞の特徴を考慮した接辞処理のアルゴリズムが必要である.同一の語幹をもつ,意味の類似した派生形をまとめあげる接辞処理は,索引語の多様性を吸収する効果がある.しかし,意味の大きく異なる派生形を同一の語幹に関連づける過度な接辞処理を行うと,接辞処理がかえって索引処理に悪影響を及ぼす場合もある.このため,開発したステマーではマレー語の接辞ルールと二種類の単語辞書(語幹辞書と派生語辞書) を用いた接辞処理により,派生形に対する過度な接辞処理を避け,効果的な接辞除去を行っている.WWW 上のマレー語のテキストデータを用いて行ったステマーの性能評価についても報告する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Stemming is the process for reducing various word forms to their root forms in order to improve the effectiveness of information systems. In the Malay language, affixes have important grammatical functions. Hence, the composition of Malay words is more complicated than that of English words. Although there are several types of stemming algorithms for English and some other languages, they have not overcome the difficulties in Malay words stemming. It is essential to avoid both over-stemming and under-stemming. We have developed a new Malay stemmer for removing inflectional and derivational affixes. Our stemmer uses a set of affix rules and two types of dictionaries. We conducted an evaluation experiment using text data from WWW to support our Malay stemming algorithm. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2009, 号 2(2009-NL-189), p. 33-40, 発行日 2009-01-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |