WEKO3
アイテム
単語の表層類似性を用いた多言語単語分散表現の教師なし学習手法
https://ipsj.ixsq.nii.ac.jp/records/183796
https://ipsj.ixsq.nii.ac.jp/records/1837964f206afc-4c4b-40c0-ab22-ec0496d4bfbb
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2017 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2017-10-17 | |||||||||
タイトル | ||||||||||
タイトル | 単語の表層類似性を用いた多言語単語分散表現の教師なし学習手法 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 言語処理基礎 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
東京大学大学院情報理工学系研究科 | ||||||||||
著者所属 | ||||||||||
東京大学生産技術研究所 | ||||||||||
著者名 |
佐久間, 仁
× 佐久間, 仁
× 吉永, 直樹
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 異なる言語の単語を同一の意味空間に写像した多言語単語分散表現は,英語を始めとする言語資源の豊かな言語において学習した高精度の解析モデルを言語資源の乏しい言語の解析に転用するのに役に立つため注目を集めている.しかしながら,既存の多言語単語分散表現の学習手法の多くは対訳辞書や対訳コーパスなどの対訳資源を手がかりとして利用するため,適用可能な言語が制限される問題がある.そこで本研究では,異言語間の単語について,借用語や翻字,さらには語源を同じくする語などで表層に共通性が見られることを手がかりとして,単一言語コーパスのみから多言語単語分散表現を学習する方法を模索する.具体的には,出現文脈に加えて単語自身を構成する部分文字列を考慮した分散表現獲得手法を利用して,1) 個々の言語ごとに独立に学習した単語分散表現を,語の表層類似性を手がかりとして学習した直交行列で写像することで,多言語分散表現を獲得する手法と 2) 単一言語コーパスを連結して得られる複数言語コーパスから多言語単語分散表現を同時に学習する手法を提案する.実験ではこれらの手法の有用性を検証するために,同一言語内で意味的に近い語が意味空間でも近くなるとこを確認する言語内評価と,言語を越えて意味的に近い語が意味空間でも近くなることを確認する言語間評価を行った. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10115061 | |||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2017-NL-233, 号 14, p. 1-7, 発行日 2017-10-17 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8779 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |