WEKO3
アイテム
2重マルコフモデルによる日本語文の誤り検出並びに訂正法
https://ipsj.ixsq.nii.ac.jp/records/49339
https://ipsj.ixsq.nii.ac.jp/records/493391315b9ec-3aa7-4059-8413-0948368c75d6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1993 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1993-09-16 | |||||||
タイトル | ||||||||
タイトル | 2重マルコフモデルによる日本語文の誤り検出並びに訂正法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Method for Detecting and Correcting of Characters Wrongly Substituted, Deleted or Inserted in Japanese Strings Using 2nd - Order Markov Model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
福井大学工学部 | ||||||||
著者所属 | ||||||||
NTT情報通信網研究所 | ||||||||
著者所属 | ||||||||
福井大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Fukui University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Network information Systems Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Fukui University | ||||||||
著者名 |
荒木, 哲郎
× 荒木, 哲郎
|
|||||||
著者名(英) |
Tetuo, Araki
× Tetuo, Araki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 漢字OCRやWP(ワードプロセッサー)、さらには音声認識装置などの入力装置を用いて計算機入力を行った日本語文には、一般に誤字、脱落及び挿入誤りが含まれるために、これらの誤りを自動的に検出し正しい日本語文に訂正する技術が必要となる。これまでに、日本語の誤字を対象に単語解析プログラムを用いた誤字検出法並びに1重マルコフモデルによる訂正方法があり、また、日本語文節内の連続した脱落及び挿入誤りで種別が与えられている場合については、m重マルコフ連鎖確率を用いて誤り位置の検出並びに正しい日本語文に訂正するアルゴリズムが提案されている。本論文では、上記のアルゴリズムを、3種類の誤り種別(誤字、脱落及び誤挿入)がわからない場合に対して、適用可能なように拡張する。また、新聞記事の77日文の統計データを用いて2重マルコフ連鎖確率辞書を作成し誤字、脱落及び挿入誤りが混在した文節を対象に誤りの種別と誤りの位置を検出する実験を行い、その有効性を評価する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In optical character recognition and continuous speech recognition of a natural language, it has been difficult to detect error characters which are wrongly deleted and inserted. In order to detect and correct these characters, up to now the method using m-th order Markov chain model when tipes of errors are known, is presented. In this paper, the method described above was extended to be able to detect and correct characters substituted, deleted and inserted wrongly, when the types of errors are unknown. This method is based on the assumption that Markov probability of a correct chain of syllables or "kanji-kana" characters is greater than that of erroneous chains. This method was applied to Japanese newspaper articles. 400 erroneous chains were prepared for each of syllables of "bunsetsu" and also "kanji-kana" characters of "bunsetsu" in the experiment. "Relevance Factor" P and "Recall Factor" R for erroneous characters deleted and corrected by this method were experimentally evaluated using statistical data for 77 issues of a daily Japanese news paper. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1993, 号 79(1993-NL-097), p. 29-35, 発行日 1993-09-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |