2024-03-29T01:19:56Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000115502022-10-21T05:24:51Z00581:00664:00670
語長変換を考慮したコーパス管理システムMaintenance Schema of Japanese POS Tagged Corporajpn特集:音声言語情報処理とその応用http://id.nii.ac.jp/1001/00011550/Journal Articlehttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=11550&item_no=1&attribute_id=1&file_no=1Copyright (c) 2002 by the Information Processing Society of Japan音声言語コーパスとその応用奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科千葉大学文学部奈良先端科学技術大学院大学情報科学研究科浅原, 正幸米田, 隆一山下, 亜希子伝, 康晴松本, 裕治本論文では,現在開発している関係データベースを用いたコーパス管理システムについて述べる.日本語の辞書管理やコーパス管理において,一貫した語の単位(1語として認定される語の長さ)は大きな問題の1つである.この問題に対し,関係データベース上に辞書とコーパスとで語の単位を同期して管理する手法を提案する.また分野により必要とされる語の単位は異なり,1つの語の単位定義を異分野間で共有することは難しい.提案する手法では,1つの元コーパスデータに対し,複数の語の単位の情報を保持することが可能である.異なる語の単位定義間の関係を保持するために複合語の定義には構成語の依存構造を導入し,依存木による複合語の分類を可能にした.これにより,各分野で必要な語の単位を依存木の構造により区別することが可能 になった.In this paper, we present a use of a relational database fordeveloping and maintaining linguistic resources.In languages that do not provide word delimitation in texts(e.g. Chinese and Japanese), consistent definition of words in thelexicon is a critical issue to build POS tagged texts.When we change the definition of word delimitation in the lexicon, weneed to also modify the tagged corpora to make them consistent with thelexicon. We propose a use of relational database schema to performthese modifications in tandem.In addition, in the Japanese language, definition of word delimitation is by itself difficult, since it varies depending on the research fields. To accommodate more than one definition ofword delimitation, we compose a compound word lexicon in the database.The compound word lexicon includes dependency structures of components.AN00116647情報処理学会論文誌437209120972002-07-151882-77642009-06-29