ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. アクセシビリティ(AAC)
  3. 2021
  4. 2021-AAC-15

書誌データ・青空文庫・点字データを用いた振り仮名注釈付き日本語コーパスの構築

https://ipsj.ixsq.nii.ac.jp/records/209902
https://ipsj.ixsq.nii.ac.jp/records/209902
6352462f-902f-44da-87f0-29afe1367d17
名前 / ファイル ライセンス アクション
IPSJ-AAC21015013.pdf IPSJ-AAC21015013.pdf (1.1 MB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2021-02-26
タイトル
タイトル 書誌データ・青空文庫・点字データを用いた振り仮名注釈付き日本語コーパスの構築
タイトル
言語 en
タイトル Construction of a Japanese corpus with furigana annotations using bibliographic data, Aozora Bunko, and Braille data
言語
言語 jpn
キーワード
主題Scheme Other
主題 コンテンツのアクセシビリティ
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京大学大学院情報理工学系研究科
著者所属
東京大学生産技術研究所
著者所属
国立情報学研究所/東京大学生産技術研究所
著者所属(英)
en
Graduate School of Information Science and Technology, the University of Tokyo
著者所属(英)
en
Institute of Industrial Science, the University of Tokyo
著者所属(英)
en
National Institute of Informatics / Institute of Industrial Science, the University of Tokyo
著者名 佐藤, 文一

× 佐藤, 文一

佐藤, 文一

Search repository
吉永, 直樹

× 吉永, 直樹

吉永, 直樹

Search repository
喜連川, 優

× 喜連川, 優

喜連川, 優

Search repository
著者名(英) Fumikazu, Sato

× Fumikazu, Sato

en Fumikazu, Sato

Search repository
Naoki, Yoshinaga

× Naoki, Yoshinaga

en Naoki, Yoshinaga

Search repository
Masaru, Kitsuregawa

× Masaru, Kitsuregawa

en Masaru, Kitsuregawa

Search repository
論文抄録
内容記述タイプ Other
内容記述 重度視覚障害者は,パソコンで画面読み上げソフトを使用して,漢字交じりの文書を音声で聞いているが,しばしば読み誤りが発生する.例えば,「表に出る」を「ひょうにでる」と読み上げられると理解が困難になる.この問題に対しては,機械学習に基づく統計的手法を用いて,前述の表(ひょう,おもて)のような同形異音語の読みを推定するアプローチが有望であるが,モデルの学習には正しい振り仮名が付いた大量の文が必要になる.そこで我々は,振り仮名が付与された国立国会図書館の書誌データの雑誌タイトルや,校正済みの点字データなどを活用して,機械学習に基づく読み推定モデルの学習に必要となる振り仮名付きの日本語コーパスを構築した.具体的には,まず,書誌データのタイトルとその振り仮名のペア,青空文庫のテキストと官公庁が公開する障害者向けの広報テキストなどの PDF テキストと,それらに該当する点字のデータから,対応する文のペアをパターンマッチングで選び出す.次に,この文対に対して,既存の振り仮名注釈付きコーパスや形態素解析辞書などから事前に収集した漢字に対する振り仮名候補に基づく文字レベルのマッチングを行い,振り仮名注釈付き日本語コーパスを構築する.約 4.1 億文字の漢字仮名交じり文の中から,約 3.5 億文字の文に含まれるすべての漢字に対して振り仮名の自動注釈を行った.これにより同形異音語を含む文を選び出せることを確認した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12752949
書誌情報 研究報告アクセシビリティ(AAC)

巻 2021-AAC-15, 号 13, p. 1-8, 発行日 2021-02-26
ISSN
収録物識別子タイプ ISSN
収録物識別子 2432-2431
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 18:21:05.512168
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3