@techreport{oai:ipsj.ixsq.nii.ac.jp:00220233, author = {小林, 汰一郎 and 古宮, 嘉那子 and 新納, 浩幸}, issue = {3}, month = {Sep}, note = {日本語には読みに曖昧性を持つ単語が多数存在する.例えば「辛い」は「カライ」のほかに「ツライ」と読むこともできる.このような単語を同形異音語と呼ぶ.本論文では,BERT を用いて同形異音語の読み推定を行う.訓練・テストデータには現代日本語書き言葉均衡コーパス (BCCWJ) と日本語話し言葉コーパス (CSJ) を利用した.BCCWJ の大半を占める非コアデータの読みは,形態素解析システム MeCab により機械的に割り振られたものである.また,BCCWJ は書き言葉であり,CSJ は話し言葉なので,ドメインのずれが想定される.CSJ をターゲット領域としたとき,通常はこの領域の訓練事例を用いて読み推定のモデルを学習・構築すればよいが,訓練事例の構築コストが高いという問題がある.本研究では自動的に付与されたドメイン外の大量の疑似データ (BCCWJ のデータ) を利用することで,本来必要としたターゲットの領域の訓練事例の量を大幅に削減することができた.}, title = {疑似訓練データを用いたBERTによる同形異音語の読み推定}, year = {2022} }