WEKO3
アイテム
平仮名N - gramによる平仮名列の誤り検出とその修正
https://ipsj.ixsq.nii.ac.jp/records/12621
https://ipsj.ixsq.nii.ac.jp/records/1262187e8f2a8-8a45-44ab-8c21-f3ff02deffb1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1999 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1999-06-15 | |||||||
タイトル | ||||||||
タイトル | 平仮名N - gramによる平仮名列の誤り検出とその修正 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Detection and Correction for Errors in Hiragana Sequences by a Hiragana Character N - gram | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語処理 | |||||||
著者所属 | ||||||||
茨城大学工学部システム工学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Systems Engineering, Faculty of Engineering, Ibaraki University | ||||||||
著者名 |
新納, 浩幸
× 新納, 浩幸
|
|||||||
著者名(英) |
Hiroyuki, Shinnou
× Hiroyuki, Shinnou
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では 日本語の平仮名列で生じる書き誤りを検出 修正する手法として平板名N-gramを提案する. また妥当な N の値についても考察する. 単語N-gramにより文書中の誤り検出 修正が可能であるが 大規模なN-gramは N が3の場合でさえ 構築するのが困難である. また日本語の場合 形態素解析が必要である点 N-gram表の検索コストが高い点などから 手軽に利用できる手法ではない. ただし 平仮名列中に生じる書き誤りに限定すれば 平仮名文字に対するN-gramを構築することで 上記の問題を回避し 平仮名列中の誤り検出 修正が可能となる. ここで N を大きくとれば誤り検出の再現率は高くなるが コーパスのスパース性から適合率が低くなる. つまり最適な N の設定にはコーパスの量と再現率への重みが影響する. 本論文では 現実規模のコーパスとして新聞記事5年分を利用した. そこから平仮名 3?6-gram を作成し 各々を利用した場合の平仮名文字の挿入 削除 置換 転置による誤りの検出とその修正の効果を調べた. 結果 平仮名列中の誤り検出 修正に対して平仮名N-gramが有効であること および新聞記事5年分では 4-gram の利用が実用的であることを示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose the hiragana character N-gram method to detect and correct errors in Japanese hiragana sequences. Further, we investigate about the proper N. It is known that the word N-gram method is effective to detect and correct errors in texts. However, it is difticult to construct word N-gram, even the case of N = 3. Moreover, in Japanese, this method requires the morphological analysis and high cost for searching an N word sequence from the word N-gram table. Thus, at the moment the word N-gram method for the text revision is not reasonable. However, if the target of the revision is limited to simple errors in Japanese hiragana sequences, by using the hiragana character N-gram we can detect and correct their errors without above problems. In this method, N-gram with the high N has the high recall, but the low precision because of the corpus sparseness problem. So, we must consider the corpus size and the weight of the recall to set the proper N. In experiments, we constructed 3, 4, 5 and 6-gram respectively from newspaper five years articles. By using their N-gram tables respectively, we examined the effectiveness of the revision for simple errors in hiragana sequences, which are caused by a single hiragana character insertion, deletion, substitution and reversal. We conclude that the hiragana character N-gram is effective to detect and correct errors in hiragana sequences, and N = 4 is proper realistically. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 40, 号 6, p. 2690-2698, 発行日 1999-06-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |