Item type |
Journal(1) |
公開日 |
2015-10-15 |
タイトル |
|
|
タイトル |
日本語文書内で表現される事象間の時間的な順序関係の推定 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Temporal Relation Classification between Events Represented in Japanese Texts |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文] 時間情報処理,自然言語処理,意味解析 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
東北大学大学院情報科学研究科 |
著者所属 |
|
|
|
東北大学大学院情報科学研究科 |
著者所属 |
|
|
|
東北大学大学院情報科学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Sciences, Tohoku University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Sciences, Tohoku University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Sciences, Tohoku University |
著者名 |
稲田, 和明
松林, 優一郎
乾, 健太郎
|
著者名(英) |
Kazuaki, Inada
Yuichiro, Matsubayashi
Kentaro, Inui
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,文書中の表現間の時間的な順序関係の推定(時間関係認識)について述べる.英語では時間関係認識に関する研究が多数存在するが,日本語では多くなく,特に一般的なドメインの文書を対象とした研究が乏しい.そこで本研究では,日本語における頑健な時間関係認識の確立を目指し,ドメインに依存しない解析手法を分析する.英語では機械学習手法によって成果をあげているが,その知見が日本語でも効果的に働くかは自明ではないため,英語で採用される素性が日本語でも同様に有効かを検証する.また,時間関係認識はいまだ発展途上であることから,その解析精度の向上を目指し,時間表現に対する依存構造と大規模データから獲得した頻度情報を利用した素性を提案する.さらに,各素性の貢献度,学習曲線などの分析や,実際の解析によって生じた誤り事例の調査を行う.これらの結果,我々が提案した素性によって解析精度の向上が見られたが,大規模データの頻度情報を利用した素性は頻度獲得に改良が必要と分かった.また,英語での手法は日本語でもおおむね有効であったが,言語間の文法的な表現方法の差異によって,日本語では品詞の素性が悪影響を与えていた.学習曲線などの分析から現状では学習データ量が不十分であり,さらなるデータ量増加に価値があること,誤り分析から事象の持つテンス・アスペクトといった機能的意味の解析などが,今後の時間関係認識の発展に必要と分かった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Temporal relation classification (TRC) is the task of classifying temporal relations between two expressions in a given text. While TRC has been widely explored in English, it has rarely been explored in Japanese aside from domain-specific models. In this work, we aim to create a TRC system for Japanese texts that works with general domains. To accomplish this, we first developed a system based on previous machine-learning models in English, and we verified that the same features work for Japanese. We then evaluated novel features that exploit dependency contexts and a co-occurrence frequency obtained by a large-scale corpus. In detail, we evaluated the contribution of each feature, learning curve, and accuracy of each temporal relation type, and we also performed an error analysis. The results show that our proposed features effectively worked, but it is necessary to improve the co-occurrence-based feature. The features we investigated for English are also effective in Japanese; however, part of speech did not work well due to their grammatical differences. The learning curve indicated that the number of training data was insufficient. Finally, in our error analysis, we found that detecting tense, aspect, and modality are necessary for further improvement of our system. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 56,
号 10,
p. 2054-2071,
発行日 2015-10-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |