WEKO3
アイテム
transformer モデルを用いた機械学習によるサンスクリットの連声解除
https://ipsj.ixsq.nii.ac.jp/records/192435
https://ipsj.ixsq.nii.ac.jp/records/192435c004a794-896f-4202-8c6b-b2e2a3e5b92a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2018 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2018-11-24 | |||||||
タイトル | ||||||||
タイトル | transformer モデルを用いた機械学習によるサンスクリットの連声解除 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Sanskrit Sandhi splitter by machine learning using Transformer | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | Sanskrit\n | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | sandhi\n | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | machine learning\n | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | Transformer | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
東京大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tokyo | ||||||||
著者名 |
塚越, 柚季
× 塚越, 柚季
|
|||||||
著者名(英) |
Yuzuki, Tsukagoshi
× Yuzuki, Tsukagoshi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | サンスクリットの文中の単語に自動で形態情報を付与するのは容易ではない.文中の語形 (主に語尾) は,連 声規則により主に後続する語の語頭の音によって変化する.このため,手を加えていないテキストに対する形 態情報の付与が難しい.そこで連声規則が適用されている原典テキストから,連声規則前の形の単語の連続に 戻すことが必要である.時間を要するが,語彙や形態の情報を元に連声を解除することは可能である.一方でそのような情報なしに Attention メカニズム + sequence to sequence モデルを用いて短時間に高精度で連声の解除にも成功している. 本研究では Attention のみを使って高い精度を出すことができる Transformer モデルを用いて,高精度な連声の解除を行った. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | It is difficult to automatically give morphological information to words in a Sanskrit sentence. Sandhi rules change the word forms, especially final sounds, depending on the initial sound of the following word. This makes automatic glossing of untokenized Sanskrit sentences difficult. Therefore, it is necessary to restore individual words from original sentences combined by the sandhi rules. Although it takes a long time, it is possible to split sandhi by vocabulary and/or morphological information. Alternatively, there is another approach that does not need vocabulary or morphological information but splits sandhi with less time, but higher accuracy. This research was performed to split Sanskrit sandhi by the Transformer model which gives high accuracy using only Attention. | |||||||
書誌情報 |
じんもんこん2018論文集 巻 2018, p. 9-14, 発行日 2018-11-24 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |