2024-03-29T00:26:47Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000715532023-04-27T10:00:04Z01164:05352:06035:06233
ユーザフィードバックに基づく訓練データ拡張を伴う蛋白質機能情報文抽出に関する研究A Method of Extracting Sentences Containing Protein Function Information with Training Data Extension based on User's Feedbackjpnhttp://id.nii.ac.jp/1001/00071553/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=71553&item_no=1&attribute_id=1&file_no=1Copyright (c) 2010 by the Information Processing Society of Japan神戸大学大学院自然科学研究科大阪大学サイバーメディアセンター神戸大学大学院システム情報学研究科宮西, 一徳尾崎, 知伸大川, 剛直蛋白質の機能は,蛋白質の構造解析実験の結果得られ,論文などの文献中に記述され蓄積されている.この機能情報は,新薬の開発や生命現象の解明に必要な情報であるためデータベース化が求められている.そこで,蓄積された大量の文献から機能情報を抽出する手法を提案する.本論文では,文献からの機能情報の抽出を,文献中の各文について機能情報を含むか否かの分類問題として扱う.このような分類問題に対する典型的な機械学習を用いた手法では,あらかじめ与えられた訓練データを用いて分類器を学習するが,十分な訓練データが与えられない場合,高い精度は期待できない.そこで,訓練データを拡張することによって分類精度の向上を図る.訓練データを拡張するため,機能情報文であるかどうかが判明していない文から構成される参照データを用い,ユーザからのフィードバックを基に距離学習を行うことで参照データから精度向上に効果的な文を選択し,訓練データに追加する.評価実験では,少ないフィードバックで精度の向上が見られ,提案手法によりユーザへの負担を軽減しつつ精度向上が実現できることを確認した.Protein function is clarified by protein structure analysis and the obtained knowledge has been stated in a number of documents. It is expected to construct the database of the function information, because the function information is useful for various application fields such as drug discovery, understanding of life phenomenon, and so on. Then, we propose the method of extracting the function information from a number of documents. In this paper, extraction of protein information is considered as a classification problem, namely, whether each sentence from the target document includes the function information or not is determined. Typically, in the case of addressing such a classification problem, a classifier is learned using the training data previously given. However, the accuracy is not high when the training data is not large enough. Thus, we attempt to improve the accuracy of classification by extending the training data. Effective sentences for getting high accuracy are selected from the reference data aside from the training data set based on user’s feedback, and added to the training data. In the experiment, the accuracy is improved by less feedback. Thus, it is confirmed that the training data is appropriately extended based on user’s feedback by the proposed method with user’s load reduced.AA12055912研究報告バイオ情報学(BIO)2010-BIO-2325162010-12-092010-12-07