2024-03-29T03:49:22Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000487312023-04-27T10:00:04Z01164:04179:04243:04245
医学・生物学論文からのタグ付きコーパスの作成Building Annotated Corpus From Biomedical Research Papersjpnhttp://id.nii.ac.jp/1001/00048731/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48731&item_no=1&attribute_id=1&file_no=1Copyright (c) 1999 by the Information Processing Society of Japan東京大学大学院理学系研究科東京大学大学院理学系研究科東京大学大学院理学系研究科東京大学大学院理学系研究科東京大学大学院理学系研究科大田, 朋子建石, 由佳Collier, Nigel野畑, 周辻井, 潤一情報抽出プログラムのテストデータおよび学習データとして使用するため,医学生物学分野の論文アブストラクトに物質名などをマークアップしたタグ付きコーパスを作成した。タグ付けにあったって,物質の概念モデル(オントロジー)を作成し,それにもとづいたタグセットをSGMLで定義した。 MEDLINEデータベースに登録されたアブストラクト100件をタグ付けして初期コーパスとするとともに,われわれとは独立な研究者にもタグ付けを依頼し,タグの信頼度を検証した。検証の結果,タグ付け作業者間で揺れの大きかった点についてタグおよび作業指示書の改定を行った。As a part of a project on information extraction from the research papers in genome domain, we are creating an expert-tagged corpus of MEDLINE abstracts which will be used for training and testing the information extraction systems. The markup scheme is based on a conceptual domain model (ontology) and implemented in SGML. We created a preliminary corpus of 100 MEDLINE abstracts, and also conducted a cross-validation experiment with independent biologists.AN10115061情報処理学会研究報告自然言語処理(NL)199973(1999-NL-133)93981999-09-102009-06-30