WEKO3
アイテム
慣用句抽出のための統計尺度の比較評価
https://ipsj.ixsq.nii.ac.jp/records/48148
https://ipsj.ixsq.nii.ac.jp/records/48148a0e59d2e-1149-4673-9c85-258e1c73f786
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2004-07-16 | |||||||
| タイトル | ||||||||
| タイトル | 慣用句抽出のための統計尺度の比較評価 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Extraction of Japanese noun - verb collocations from Corpora | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| (株)日立製作所中央研究所 | ||||||||
| 著者所属 | ||||||||
| (株)日立製作所中央研究所 | ||||||||
| 著者所属 | ||||||||
| (株)日立製作所中央研究所 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Central Research Laboratory, Hitachi, Ltd. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Central Research Laboratory, Hitachi, Ltd. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Central Research Laboratory, Hitachi, Ltd. | ||||||||
| 著者名 |
相薗, 敏子
小泉, 敦子
森本, 康嗣
× 相薗, 敏子 小泉, 敦子 森本, 康嗣
|
|||||||
| 著者名(英) |
Toshiko, Aizono
Atsuko, Koizumi
Yasutsugu, Morimoto
× Toshiko, Aizono Atsuko, Koizumi Yasutsugu, Morimoto
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | テキストマイニングでは,文書DBから単語や単語のペアを抽出して文書DBの特徴としてユーザに表示する。慣用句は,複数の単語で一つの意味を表すため,全体でまとまった単位として扱う必要がある。本研究では,名詞と動詞のペアからなる慣用句を文書DBから抽出する方式を検討した。本稿では,慣用句を抽出するための統計尺度の比較・評価について述べる。相互情報量,χ^2,AICの比較実験により,χ^2が統計尺度としては最適であることを確認した。また異分野の文書DBを利用することにより,F値が50%から53%に向上した。 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Extraction of noun-verb relations is essential for knowledge extraction from text. Proper treatment of collocations is one of the tasks, since they often present non-constitutional concepts and have to be treated as single units instead of verb-noun relations. In this paper, we describe an experimental evaluation of statistical measures for extracting Japanese noun-verb collocations from a corpus. Based on the result of an experiment using three measures; Mutual Information, χ^2, as well as AIC, we conclude that χ^2 is the most suitable measure to extract collocations. F measeure of χ^2 was improved from 50.1% to 52.8% by using a corpus from a different domain. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10115061 | |||||||
| 書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2004, 号 73(2004-NL-162), p. 103-108, 発行日 2004-07-16 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||