| Item type |
SIG Technical Reports(1) |
| 公開日 |
1995-09-14 |
| タイトル |
|
|
タイトル |
統計モデルによる日本語の形態素解析手法 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Japanese Morphological Analysis Based on Statistical Method |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
早稲田大学情報科学研究センター/浦項工科大学情報通信研究所 |
| 著者所属 |
|
|
|
浦項工科大学情報通信研究所/浦項工科大学電子計算学科 |
| 著者所属 |
|
|
|
浦項工科大学電子計算学科 |
| 著者所属(英) |
|
|
|
en |
|
|
Centre for Informatics, Waseda University/Information Research Laboratories, POSTECH |
| 著者所属(英) |
|
|
|
en |
|
|
Information Research Laboratories, POSTECH/Computer Science & Engineering, POSTECH |
| 著者所属(英) |
|
|
|
en |
|
|
Computer Science & Engineering, POSTECH |
| 著者名 |
朴, 哲済
李, 鐘赫
李, 根培
|
| 著者名(英) |
Chul-Jae, Park
Jong-Hyeok, Lee
Geunbae, Lee
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,拡張CYK法に単語接続に関する統計モデルを利用した日本語の形態素解析手法を提案する.形態素解析の過程はまず,接続情報を検査し接続が可能な形態素解析結果をすべて得たのち,ヒューリスティックスを利用して優先順位を決める.我々は,接続情報表の値を確率として用いることにより接続の強度を表現し,その強度により形態素候補の優先順位を決めた.このとき用いる確率情報は,形態素解析の対象言語に関する確率モデルとして統計情報抽出機構から得られる.このような形態素解析手法を日本語を対象に約24万形態素のコーパスから接続情報を抽出し実験した結果95.2%の解析成功率を得た.本論文では確率接続表を用いた形態素解析能力と,接続の可不のみを表した接続表を用いた形態素解析機構を比較し評価を行う. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper proposes a method for Japanese morphological analysis based on the CYK algorithm using a statistical model about the conjunctive relationships between words in a sentence. The morphological analysis process is comprised of two main stages: The extraction of the several analysis results each of which are checked for morphological connectivity, and the computation of an analysis score of each morpheme chain for the results of the first stage. Through the application of statistical probabilities in connectivity information between neibouring morphemes, the most preferable analysis among the several possible ones can be selected. Probability information is extracted from a corpus of about 240,000 morphemes. Based upon these concepts, we developed a Japanese Morphological analyzer, and obtained 95.2% of accuracy for Japanese sample sentences from news. By comparing experimentally with other algorithm which represent connectivity information by bits, we demonstrate that the statistical method is more efficient. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
情報処理学会研究報告自然言語処理(NL)
巻 1995,
号 89(1995-NL-109),
p. 19-26,
発行日 1995-09-14
|
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |