2024-03-29T23:10:17Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000964112023-11-14T00:51:14Z06164:06165:06630:07329
TEI:P5に基づく近世口語資料の構造化とその問題点Problems in TEI P5 Encoding on\nColloquial Japanese Documents of the Early Modern Periodjpnhttp://id.nii.ac.jp/1001/00096389/Conference Paperhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=96411&item_no=1&attribute_id=1&file_no=1Copyright (c) 2013 by the Information Processing Society of Japan国立国語研究所国立国語研究所国立国語研究所河瀬, 彰宏市村, 太郎小木曽, 智信国立国語研究所では,「日本語歴史コーパス設計」プロジェクトの一環として古典資料の形態素解析を実施している.形態素解析を行うためには,基礎資料となる古典テキストの電子化が必須である.これまでに様々な時代のテキストコーパスを電子化し,公開している.しかし,これらのテキストコーパスは,国立国語研究所が独自に考案したタグセットに基づくXML を用いてマークアップが行われているため,各コーパスを規定する要素は,基本的に統一されていない.そのため,複数のコーパス間の構造比較や計量分析を機械的に実施することが現状では難しいという問題を抱えている.したがって,複数のコーパスの構造を高次の視点から統一的に記述することが求められている.本稿では,この問題を解決するために,洒落本の一冊『傾城買二筋道』の版本を事例に,TEI P5 準拠のXML 形式による文書構造化を検討する.The National Institute for Japanese Language and Linguistics (NINJAL) is conducting morphological analysis on Japanese classics. Digitization has been done thus far on the literature of several ages and various text corpora are published. However, each element (tag) of the text corpora is marked up under NINJAL’s Document Type Definition, which is basically neither unified nor standardized. Under this circumstance causes problem with structural analysis and numerical analyses between several corpora. Thus it is necessary to design and mark up a unified definition from a higher level in order to conduct analyses concurrently. In this study, we examine the possibilities to convert documents of classical Japanese, an old block book from Sharebon’s “Keisei-kai futasuji-no-michi” (published in 1798) as a model case, with TEI-compliant XML and discuss its issues.じんもんこん2013論文集201347122013-12-052013-12-04