WEKO3
アイテム
品詞情報を利用した複合語の分散表現の合成
https://ipsj.ixsq.nii.ac.jp/records/208172
https://ipsj.ixsq.nii.ac.jp/records/2081723f422fca-1bd2-46b0-bcf6-6c2c472a98e6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2020 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2020-11-25 | |||||||||
タイトル | ||||||||||
タイトル | 品詞情報を利用した複合語の分散表現の合成 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Composing Word Embeddings for Compound Words Using Patterns of Parts of Speech | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 分散表現 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
茨城大学大学院理工学研究科情報工学専攻 | ||||||||||
著者所属 | ||||||||||
茨城大学大学院理工学研究科情報工学専攻 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Ibaraki University | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Ibaraki University | ||||||||||
著者名 |
河野, 慎司
× 河野, 慎司
× 古宮, 嘉那子
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 本稿では,複合語の分散表現をその構成語から合成する試みについて述べる.具体的には UniDic での単語区切りの単位である「短単位」と「長単位」をそれぞれ構成語と複合語として利用し,構成語二つの分散表現から複合語の分散表現の合成をニューラルネットワークで行った.複合語の分散表現の教師値は,構成語で分かち書きしたコーパスと複合語で分かち書きしたコーパスを連結して分散表現を作成した.分散表現の合成にあたって,現代日本語書き言葉均衡コーパスに付与されている品詞パターンを分類するタスクをサブタスクとして利用してマルチタスク学習を行った.サブタスクを利用した場合としない場合とで,合成した複合語の分散表現と正解の分散表現のコサイン類似度を比較した結果,サブタスクを利用した方が,合成性能が高いことが分かった.また構成語間の意味的関係を使った先行研究と比較したところ,本手法の性能が上回った. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | This paper describes an attempt to compose word embeddings of a compound word from its constituent words. In particular, we used “short unit” and “long unit” which are the units of word delimiter in UniDic for constituent and compound words respectively, and compose a word embedding of a compound word from word embeddings of two constituent words using a neural network. The supervised data of the word embedding of compound words was created with a corpus generated by concatenating the corpus divided by the constituent words and the corpus divided by the compound words. In the composition of word embedding, multitask learning was performed using the task of classifying the parts of speech patterns assigned to “Balanced Corpus of Contemporary Written Japanese” as a subtask. We compared the cosine similarity between the composed and correct word embeddings of compound words to assess the models with and without the subtask. The experiments revealed that the model with the subtask outperformed the model without the subtask. In addition, the performance of this method was superior to that of a previous study using semantic information. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10442647 | |||||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2020-SLP-134, 号 23, p. 1-6, 発行日 2020-11-25 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8663 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |