仮名漢字変換ログを用いた単語分割・読み推定の精度向上

高橋, 文彦; 森, 信介

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

仮名漢字変換ログを用いた単語分割・読み推定の精度向上

https://ipsj.ixsq.nii.ac.jp/records/107443

名前 / ファイル	ライセンス	アクション
IPSJ-NL14219015.pdf (698.0 kB)	Copyright (c) 2014 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2014-12-09

タイトル

仮名漢字変換ログを用いた単語分割・読み推定の精度向上

言語

jpn

キーワード

主題Scheme

Other

主題

応用処理1

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都大学情報学研究科

著者所属

京都大学学術情報メディアセンター

著者名

高橋, 文彦
森, 信介

論文抄録

内容記述タイプ

Other

内容記述

単語分割・読み推定の課題として，未知語の多いテキストを頑健に解析できないという問題がある．本研究ではこのような問題に対処するために，文章を作成するときに用いる仮名漢字変換のログを参照する方法を提案する．仮名漢字変換ログとは，インプットメソッドで文章を作成するときの履歴であり，単語境界や入力記号列の情報を含んでいるため，アノテーションデータと見なすことができる．一方で変換ログは，誤った確定結果などを含むためノイズありのアノテーションデータだといえる．本論文では，ノイズを含んだアノテーションデータを学習データに利用する３つの方法を提案する．実験では，Twitter を題材として提案手法を評価し，単語分割・読み推定ともに精度が向上することを確認し，提案手法の有効性を示した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2014-NL-219, 号 15, p. 1-10, 発行日 2014-12-09

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-21 09:01:25.723643

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

仮名漢字変換ログを用いた単語分割・読み推定の精度向上

× 高橋, 文彦

× 森, 信介

Versions

Share

Cite as

エクスポート