WEKO3
アイテム
日本語文音声出力からの読み情報を用いた漢字かな混じり文節候補の絞り込み
https://ipsj.ixsq.nii.ac.jp/records/49276
https://ipsj.ixsq.nii.ac.jp/records/492765f6e7c3a-ddb0-49f4-9e53-de6955e6aa26
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1994 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1994-07-21 | |||||||
タイトル | ||||||||
タイトル | 日本語文音声出力からの読み情報を用いた漢字かな混じり文節候補の絞り込み | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Method of Deciding "Bunsetsu" Candidates of "kanji - kana" Strings Using "Yomi" Information output from Japanese Text to Speech System | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
福井大学 | ||||||||
著者所属 | ||||||||
NTTコミュニケーション科学研究所 | ||||||||
著者所属 | ||||||||
福井大学 | ||||||||
著者所属 | ||||||||
福井大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fukui University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fukui University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fukui University | ||||||||
著者名 |
荒木, 哲郎
× 荒木, 哲郎
|
|||||||
著者名(英) |
Tetsuo, Araki
× Tetsuo, Araki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | これまでに文節切りされたべた書き音節表記文節から、音節漢字変換によって得られる漢字かな交じり文節候補を、文節内及び文節間の漢字かな文字及び品詞情報のマルコフ連鎖モデルを用いて絞り込む方法が提案されて、その有効性が示されている。しかしこれらの漢字かな交じり候補の中には、日本語として意味のある正しい漢字かな交じり文節でない候補も含まれており、文節候補を組み合わせて文候補を生成する場合には無意味な文候補が大量に生成されることになり、その分処理時間が増加することになる。本論文では、このような日本語として意味の通らない間違った漢字かな混じり文節候補を取り除くために、それが日本語として意味のある正しい漢字かな混じり文字列かどうかを、高精度な読み情報を付与する日本語文音声出力システムを用いて検定する方法、すなわちその読みがちとの音節列(かな列)に一致するか否かを調べる方法を提案し、その有効性を定量的に調べた。実際に、43万語単語辞書を参照して、新聞記事77日分の統計データを用いた実験を行った結果、次のような知見を得た。1.文節内の漢字かな文字のマルコフ連鎖モデルにより得られた、10位内の漢字かな混じり候補に対して、その読み情報がもとの正解候補の音節列(かな列)と一致しないものを、間違った候補として取り除く方法により、10位内の累積正解率は平均として上位4位までの候補で、また品詞情報と併用することにより上位3位までの候補で得られることがわかった。2.文節内および文節外の漢字かな文字のマルコフ連鎖モデルにより得られた、10位内の漢字かな混じり候補に対して、上記の読み情報に基づく検定を施した場合には、標本外データの場合で第一位正解率が検定をしない場合に比べて4%高い、89.4%の正解率が得られることがわかった。3.10位内に含まれる漢字かな混じり候補のうち、読みが一致している候補は、正解候補か、または意味が同じで単に表記法だけが異なるもの、同音意義語、そして日本語として存在しないものであることがわかった。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | There are many reseaches on the method which translates the non-segmented "Kana" sentences into the "kanji-kana" sentences. However, the amount of computer memories required for the translating processing explodes in many times, because the number of the combinations of candidates for "kanji-kana" words grows rapidly in propotion to te increasing of the length of the sentence. The memory explosion can be prevented if a sentences is separated into "bunsestu". Up to now, an useful mehod for finding and correcting the provisional boundaries of "bunsestu" using 2nd-order Markov model has been proposed. This paper proposes a method of deciding the most provable candidate of "kanji-kana" strings translated from the non-segmented "kana bunsetsu" described above, using "yomi" information in additon to Markov models of "kanji-kana" characters and word categories. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1994, 号 63(1994-NL-102), p. 113-120, 発行日 1994-07-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |