2024-03-29T15:37:37Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000578592024-03-29T05:26:34Z01164:05159:05234:05238
最長共通部分文字列探索を用いたテキストからの仮名漢字変換候補単語の抽出方法A Word Extraction Method for Kana - Kanji Conversion from Japanese Texts Based on Longest Common Subsequencejpnhttp://id.nii.ac.jp/1001/00057859/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=57859&item_no=1&attribute_id=1&file_no=1Copyright (c) 1996 by the Information Processing Society of Japan宇都宮大学工学部情報工学科安達, 久博本論文は,与えられた漢字仮名混じり文とその読み仮名文字列を対象とし,この2つの文字列相互間の対応関係を同定する文字列照合方法を提案し,日本語のテキストから仮名漢字変換候補単語を抽出する方法について検討する.すなわち,形態素解析処理を行わずにテキストから漢字表記とその読みのペアを抽出する方法について述べる.この抽出されたペアを仮名漢字変換候補単語と呼ぶ.文字列照合における問題点は,漢字表記の読みの中に平仮名で表記される語と同じ読みが存在する場合に対応関係が多対多になり,一意に決定できずに誤った対応関係が抽出されてしまうという点である.この問題に対する従来の方法は,前方と後方から文字列照合を行い,対応関係が双方で一致したペアだけを抽出する双方向解析を導入し,抽出されなかったペアについては,曖昧さの生じない他の例文から抽出されるとするものであった.しかし,他の例文から抽出される可能性は否定できないが,抽出されない可能性も否定できず,他の例文に依存せずに抽出する方法を検討する必要性は大きい.本提案手法は,2つの文字列間の最長共通部分文字列探索の手法を導入し,対象文字列間の表層的な特徴に基づく制約条件と単漢字変換辞書を用いて,決定論的に対応関係を同定し,仮名漢字変換候補単語を抽出する.新聞記事の見出し300文を対象に実験を行った結果,100%の抽出成功率を得た.This paper describes a information extraction method from Japanese texts using string matching for finding the corresponding relations between Japanese sentences and their kana- character strings. This method is based on the longest common subsequences (LCS) using several constraints which are derived from concatenations of Japanese characters. To evaluate the performance of the proposed method, we have applied it to extract pairs of kanji- and kana- character strings from texts which are 300 headlines in newspaper articles and obtained 100 % of extraction accuracy.AN10442647情報処理学会研究報告音声言語情報処理(SLP)199655(1996-SLP-011)73781996-05-272009-06-30