ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2020
  4. 2020-NL-246

品詞情報を利用した複合語の分散表現の合成

https://ipsj.ixsq.nii.ac.jp/records/208133
https://ipsj.ixsq.nii.ac.jp/records/208133
2f637b20-9e66-40f7-ba37-8a6e15824c8b
名前 / ファイル ライセンス アクション
IPSJ-NL20246023.pdf IPSJ-NL20246023.pdf (918.2 kB)
Copyright (c) 2020 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2020-11-25
タイトル
タイトル 品詞情報を利用した複合語の分散表現の合成
タイトル
言語 en
タイトル Composing Word Embeddings for Compound Words Using Patterns of Parts of Speech
言語
言語 jpn
キーワード
主題Scheme Other
主題 分散表現
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
茨城大学大学院理工学研究科情報工学専攻
著者所属
茨城大学大学院理工学研究科情報工学専攻
著者所属(英)
en
Ibaraki University
著者所属(英)
en
Ibaraki University
著者名 河野, 慎司

× 河野, 慎司

河野, 慎司

Search repository
古宮, 嘉那子

× 古宮, 嘉那子

古宮, 嘉那子

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,複合語の分散表現をその構成語から合成する試みについて述べる.具体的には UniDic での単語区切りの単位である「短単位」と「長単位」をそれぞれ構成語と複合語として利用し,構成語二つの分散表現から複合語の分散表現の合成をニューラルネットワークで行った.複合語の分散表現の教師値は,構成語で分かち書きしたコーパスと複合語で分かち書きしたコーパスを連結して分散表現を作成した.分散表現の合成にあたって,現代日本語書き言葉均衡コーパスに付与されている品詞パターンを分類するタスクをサブタスクとして利用してマルチタスク学習を行った.サブタスクを利用した場合としない場合とで,合成した複合語の分散表現と正解の分散表現のコサイン類似度を比較した結果,サブタスクを利用した方が,合成性能が高いことが分かった.また構成語間の意味的関係を使った先行研究と比較したところ,本手法の性能が上回った.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper describes an attempt to compose word embeddings of a compound word from its constituent words. In particular, we used “short unit” and “long unit” which are the units of word delimiter in UniDic for constituent and compound words respectively, and compose a word embedding of a compound word from word embeddings of two constituent words using a neural network. The supervised data of the word embedding of compound words was created with a corpus generated by concatenating the corpus divided by the constituent words and the corpus divided by the compound words. In the composition of word embedding, multitask learning was performed using the task of classifying the parts of speech patterns assigned to “Balanced Corpus of Contemporary Written Japanese” as a subtask. We compared the cosine similarity between the composed and correct word embeddings of compound words to assess the models with and without the subtask. The experiments revealed that the model with the subtask outperformed the model without the subtask. In addition, the performance of this method was superior to that of a previous study using semantic information.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2020-NL-246, 号 23, p. 1-6, 発行日 2020-11-25
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 18:54:53.951026
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3