WEKO3
アイテム
疑似訓練データを用いたBERTによる同形異音語の読み推定
https://ipsj.ixsq.nii.ac.jp/records/220233
https://ipsj.ixsq.nii.ac.jp/records/2202336156abc0-9710-4468-959c-a51fdb56ee6b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2022-09-22 | |||||||||||
タイトル | ||||||||||||
タイトル | 疑似訓練データを用いたBERTによる同形異音語の読み推定 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 解析 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
茨城大学大学院理工学研究科情報工学専攻 | ||||||||||||
著者所属 | ||||||||||||
東京農工大学大学院工学研究院先端情報科学部門 | ||||||||||||
著者所属 | ||||||||||||
茨城大学大学院理工学研究科情報科学領域 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Major in Computer and Information Sciences, Graduate School of Science and Engineering, Ibaraki University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Division of Advanced Information Technology & Computer Science, Institute of Engineering, Tokyo University of Agriculture and Technology | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School of Science and Engineering, Department of Computer and Information Sciences, Ibaraki University | ||||||||||||
著者名 |
小林, 汰一郎
× 小林, 汰一郎
× 古宮, 嘉那子
× 新納, 浩幸
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 日本語には読みに曖昧性を持つ単語が多数存在する.例えば「辛い」は「カライ」のほかに「ツライ」と読むこともできる.このような単語を同形異音語と呼ぶ.本論文では,BERT を用いて同形異音語の読み推定を行う.訓練・テストデータには現代日本語書き言葉均衡コーパス (BCCWJ) と日本語話し言葉コーパス (CSJ) を利用した.BCCWJ の大半を占める非コアデータの読みは,形態素解析システム MeCab により機械的に割り振られたものである.また,BCCWJ は書き言葉であり,CSJ は話し言葉なので,ドメインのずれが想定される.CSJ をターゲット領域としたとき,通常はこの領域の訓練事例を用いて読み推定のモデルを学習・構築すればよいが,訓練事例の構築コストが高いという問題がある.本研究では自動的に付与されたドメイン外の大量の疑似データ (BCCWJ のデータ) を利用することで,本来必要としたターゲットの領域の訓練事例の量を大幅に削減することができた. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10115061 | |||||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2022-NL-253, 号 3, p. 1-5, 発行日 2022-09-22 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8779 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |