| Item type |
SIG Technical Reports(1) |
| 公開日 |
2017-02-03 |
| タイトル |
|
|
タイトル |
専門用語辞書拡張システムの構築 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Construction of a Bilingual Term Extension System |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語の理論と分析 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
岡山大学大学院自然科学研究科 |
| 著者所属 |
|
|
|
東京大学大学院学際情報学府 |
| 著者所属 |
|
|
|
東京大学大学院学際情報学府 |
| 著者所属 |
|
|
|
岡山大学大学院自然科学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Natural Science and Technology, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Information Studies, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Information Studies, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Natural Science and Technology, Okayama University |
| 著者名 |
石橋, 和也
影浦, 峡
岩井, 美樹
竹内, 孔一
|
| 著者名(英) |
Kazuya, Ishibashi
Kyo, Kageura
Miki, Iwai
Koichi, Takeuchi
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
辞書に含まれていない新たな専門用語を取り出す既存の方法として,専門文書から文法パターンや統計的学習モデルを利用して取得する方法が行われてきた.しかし,この手法では専門分野の文書数と獲得したい用語の頻度に問題があり獲得できない用語が多く存在した.このため本提案手法では,先行研究とは異なり既存の専門用語辞書から新たな専門用語とその対訳を獲得する手法によって専門用語辞書拡張を目指す.この手法を基にシステムを作成し,そのシステム内で使用する2部グラフのクラスタリングにおいて KL アルゴリズムと Spectral Co-Clustering のそれぞれについてシステムを構築し実験を行った.その結果,Spectral Co-Clustering を用いたシステムによって生成された用語候補が最大で 58 % の確率で新たな専門用語を生成し,専門用語対訳獲得に関して最大 26 % の精度により正しく対訳を獲得した.また,生成された用語対訳候補について全分野において Spectral Co-Clustering が精度で KL アルゴリズムを上回った.よって,本研究で用いるクラスタリングとして Spectral Co-Clustering が有効であることを示す. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In most of previous work, pattern-based approaches or statistical learning model based approaches are applied to extracting bilingual terms from documents. There still remain, however, not small terms that are not extracted because of their low frequency in the documents. In contrast to the previous work, we have proposed an approach to extract new bilingual terms from bilingual term dictionaries because most of new terms can be composed of existing concepts, i.e., constituents of terms. One of the key issues of the proposed approach is how to make suitable clusters in bipartite graph of term constituents for generating proper new terms. In this study we applied two methods of clustering, i.e., Kernighan-Lin algorithm and Spectral Co-Clustering to dividing bipartite graph. The experimental results of generating new bilingual terms in five domains show that the Spectral Co-Clustering based system extracts proper new terms with a maximal of 58% accuracy and finds correct their translations with a maximal of 26% accuracy. In the experimental results of new term extraction task of all domains, the Spectral Co-Clustering system outperforms Kernighan-Lin algorithm based system. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10114171 |
| 書誌情報 |
研究報告情報基礎とアクセス技術(IFAT)
巻 2017-IFAT-124,
号 3,
p. 1-5,
発行日 2017-02-03
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8884 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |