@techreport{oai:ipsj.ixsq.nii.ac.jp:00048148, author = {相薗, 敏子 and 小泉, 敦子 and 森本, 康嗣 and Toshiko, Aizono and Atsuko, Koizumi and Yasutsugu, Morimoto}, issue = {73(2004-NL-162)}, month = {Jul}, note = {テキストマイニングでは,文書DBから単語や単語のペアを抽出して文書DBの特徴としてユーザに表示する。慣用句は,複数の単語で一つの意味を表すため,全体でまとまった単位として扱う必要がある。本研究では,名詞と動詞のペアからなる慣用句を文書DBから抽出する方式を検討した。本稿では,慣用句を抽出するための統計尺度の比較・評価について述べる。相互情報量,χ^2,AICの比較実験により,χ^2が統計尺度としては最適であることを確認した。また異分野の文書DBを利用することにより,F値が50%から53%に向上した。, Extraction of noun-verb relations is essential for knowledge extraction from text. Proper treatment of collocations is one of the tasks, since they often present non-constitutional concepts and have to be treated as single units instead of verb-noun relations. In this paper, we describe an experimental evaluation of statistical measures for extracting Japanese noun-verb collocations from a corpus. Based on the result of an experiment using three measures; Mutual Information, χ^2, as well as AIC, we conclude that χ^2 is the most suitable measure to extract collocations. F measeure of χ^2 was improved from 50.1% to 52.8% by using a corpus from a different domain.}, title = {慣用句抽出のための統計尺度の比較評価}, year = {2004} }