WEKO3
アイテム
漢字クラスターによる日本語文献の重要語抽出
https://ipsj.ixsq.nii.ac.jp/records/49779
https://ipsj.ixsq.nii.ac.jp/records/49779f8b4d493-5e37-4587-8135-b6049fe0e439
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1986 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1986-11-21 | |||||||
タイトル | ||||||||
タイトル | 漢字クラスターによる日本語文献の重要語抽出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | AUTOMATIC KEYWORD EXTRACTION OF JAPANESE TECHNICAL DOCUMENTS BY KANJI USAGE CLUSTERS | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
慶応大学文学部図書館・情報学科 | ||||||||
著者所属 | ||||||||
慶応大学文学部図書館・情報学科 | ||||||||
著者所属 | ||||||||
愛知叔徳大学文学部図書館・情報学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab. IBM Japan, Ltd | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab. IBM Japan, Ltd | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Library and Information science KEIO University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Library and Information science KEIO University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Scholl of Library and Information science AICHI SHUKUTOKU University | ||||||||
著者名 |
梅田, 茂樹
× 梅田, 茂樹
|
|||||||
著者名(英) |
Shigeki, Umeda
× Shigeki, Umeda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 漢字をキーにして、日本語の文章中の重要語を自動的に抽出する方法を提案し、それに基づく実験を試みた。キーにする漢字は、データベースの論文抄録中に出現する漢字の頻度を統計的に解析することにより、生成した。重要語の候補を考えるときの条件として、語の長さ、字種などテキストの表層的なものだけを用いた。抽出した重要語の妥当性の評価は、同一の抄録をその分野の研究者が抽出したものと、比較することにより行った。その結果、多少ノイズとなるものがあるが、再現率指標ではほぼ妥当な結果が得られた。本稿で提案した方法は、分野のようなカテゴリーがあらかじめ与えられている時は、ある程度有効であると考えられる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes a method that extracts the important terms in technical papers automatically by computer. Japanese documents include many kind of characters; Kanji, Hiragana, Katakana, and so on. Among them, Kanji is a kind of ideogram which has an own meaning. We assumed the function of Kanjis' role in Japanese text is almost correspond to words' in English text. By way of Kanji Usage Frequency among several technical fields in Japanese technical documents' database, we made several Kanjis' cluster which has strong connection to technical fields. After experiments of automatic keyword extraction by the clusters, we confirmed the accuracy and recall ratio by the questionnaires. The accuracy is almost same degree in comparison with the word based method, and recall ratio is 70-80%, which is sufficiently practical. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1986, 号 79(1986-NL-058), p. 1-8, 発行日 1986-11-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |