WEKO3
アイテム
マルコフ連鎖モデルによる文節かな漢字変換候補の絞り込み方法
https://ipsj.ixsq.nii.ac.jp/records/49316
https://ipsj.ixsq.nii.ac.jp/records/49316c2be7fe0-7d57-40bf-8124-7ae29260f571
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1994 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1994-01-20 | |||||||
タイトル | ||||||||
タイトル | マルコフ連鎖モデルによる文節かな漢字変換候補の絞り込み方法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Method of Deciding "Bunsetsu" Candidates of "kanji - kana" Strings Using Markov Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
福井大学 | ||||||||
著者所属 | ||||||||
NTT情報通信網研究所 | ||||||||
著者所属 | ||||||||
松下電器産業 | ||||||||
著者所属 | ||||||||
福井大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fukui University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Network Information Systems Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Matushita Electric Industorial Company Limited | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fukui University | ||||||||
著者名 |
荒木, 哲郎
× 荒木, 哲郎
|
|||||||
著者名(英) |
Tetsuo, Araki
× Tetsuo, Araki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では、文節境界が与えられた場合、文節切りされたべた書き音節表記文節から、かな漢字変換によって生じる漢字かな交じり文節候補を絞り込む問題に対して、文節内及び文節間の漢字かな文字及び品詞情報のマルコフ連鎖モデルを用いる方法を提案する。実際に、43万語単語辞書を参照して、新聞記事77日分の統計データを用いた実験を行った結果、次のような知見を得た。1.かな漢字変換において、文節を構成する単語候補の組み合わせは、文節内の単語分割数が最小となる数より1つ大きい場合までを含めることにより、約95%の正解率が得られることがわかった。2.文節内の漢字かなコストにより漢字かな候補を順序づけ、さらに文節内の品詞コストを足切り値によって評価する方法により、特に標本外データの場合、10位内正解候補内約4割を、削減できることがわかった。3.文節内と文節間の漢字かなコストとの組み合わせ法により、最終的に第一位正解率が、83.7%?98.2%になることがわかった。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | There are many reseaches on the method which translates the non-segmented "Kana" Sentences into the "kanji-kana" sentences. However, the amount of computer memories required for the translating processing explodes in many times, because the number of the combinations of candidates for "kanji-kana" words grows rapidly in propotion to te increasing of the length of the sentence. The memory explosion can be prevented if a sentences is separated into "bunsestu". Up to now, an useful mehod for finding and correcting the provisional boundaries of "bunsestu" using 2nd-order Markov model has been proposed. This paper proposes a method of deciding the most provable candidate of "kanji-kana" strings translated from the non-segmented "kana bunsetsu" described above, using Markov models of "kanji-kana" characters and word categories. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1994, 号 9(1993-NL-099), p. 41-48, 発行日 1994-01-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |