WEKO3
アイテム
慣用句抽出のための統計尺度の比較評価
https://ipsj.ixsq.nii.ac.jp/records/48148
https://ipsj.ixsq.nii.ac.jp/records/48148a0e59d2e-1149-4673-9c85-258e1c73f786
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-07-16 | |||||||
タイトル | ||||||||
タイトル | 慣用句抽出のための統計尺度の比較評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Extraction of Japanese noun - verb collocations from Corpora | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
(株)日立製作所中央研究所 | ||||||||
著者所属 | ||||||||
(株)日立製作所中央研究所 | ||||||||
著者所属 | ||||||||
(株)日立製作所中央研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Central Research Laboratory, Hitachi, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Central Research Laboratory, Hitachi, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Central Research Laboratory, Hitachi, Ltd. | ||||||||
著者名 |
相薗, 敏子
× 相薗, 敏子
|
|||||||
著者名(英) |
Toshiko, Aizono
× Toshiko, Aizono
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | テキストマイニングでは,文書DBから単語や単語のペアを抽出して文書DBの特徴としてユーザに表示する。慣用句は,複数の単語で一つの意味を表すため,全体でまとまった単位として扱う必要がある。本研究では,名詞と動詞のペアからなる慣用句を文書DBから抽出する方式を検討した。本稿では,慣用句を抽出するための統計尺度の比較・評価について述べる。相互情報量,χ^2,AICの比較実験により,χ^2が統計尺度としては最適であることを確認した。また異分野の文書DBを利用することにより,F値が50%から53%に向上した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Extraction of noun-verb relations is essential for knowledge extraction from text. Proper treatment of collocations is one of the tasks, since they often present non-constitutional concepts and have to be treated as single units instead of verb-noun relations. In this paper, we describe an experimental evaluation of statistical measures for extracting Japanese noun-verb collocations from a corpus. Based on the result of an experiment using three measures; Mutual Information, χ^2, as well as AIC, we conclude that χ^2 is the most suitable measure to extract collocations. F measeure of χ^2 was improved from 50.1% to 52.8% by using a corpus from a different domain. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2004, 号 73(2004-NL-162), p. 103-108, 発行日 2004-07-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |