ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2017
  4. 2017-NL-231

日本語Twitter文書を対象とした系列ラベリングによる表記正規化

https://ipsj.ixsq.nii.ac.jp/records/178802
https://ipsj.ixsq.nii.ac.jp/records/178802
6a6b383c-3206-44f9-a28a-c6c82addfb10
名前 / ファイル ライセンス アクション
IPSJ-NL17231012.pdf IPSJ-NL17231012.pdf (895.5 kB)
Copyright (c) 2017 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2017-05-08
タイトル
タイトル 日本語Twitter文書を対象とした系列ラベリングによる表記正規化
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
首都大学東京
著者所属
首都大学東京
著者所属
首都大学東京
著者名 大崎, 彩葉

× 大崎, 彩葉

大崎, 彩葉

Search repository
北川, 善彬

× 北川, 善彬

北川, 善彬

Search repository
小町, 守

× 小町, 守

小町, 守

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,Twitter 上で見られる口語的表現やタイピングミス等による一般的でない表記 (以下 「崩れた表記」 と呼ぶ) による形態素解析精度低下を改善するためのアプローチとして,崩れた表記の正規化を試みる.英語のようなスペース区切りの言語の正規化では単語単位で崩れた表現を置き換える手法が考えられるが,日本語のようなわかち書きが必要な言語では,処理対象に崩れた表記が含まれることで単語境界の検出に誤りが生じ,未知語が多く出現するため,単語情報が利用しづらく,単語単位での置き換えは適さない.また,Twitter 文書から作られた大規模なアノテーションデータは入手が困難であるため,大量の教師データを必要とするシステムを使ってこの問題を解くことは難しい.そこで,本研究では文字単位の系列ラベリング問題として正規化を解く.系列ラベリング問題として正規化だけを解くことで,形態素解析と表記正規化を同時に学習するような手法に比べ小規模のデータでの学習が可能になる.また,正規化された表記が付与された実際の Twitter 文書のデータを使って学習,実験を行い,Twitter 文書を対象とするのに適した正規化を学習できることを示す.そうして正規化処理を施した文書と,正規化前の文書,人手で正規化を施した文書を形態素解析にかけて比較し,崩れた表記やその正規化結果が形態素解析の精度に与える影響を分析する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2017-NL-231, 号 12, p. 1-6, 発行日 2017-05-08
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 04:59:37.608873
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3