Item type |
SIG Technical Reports(1) |
公開日 |
2024-07-19 |
タイトル |
|
|
タイトル |
帝国議会議事速記録のテキストデータ作成に向けたテキスト修正支援ツールの開発 |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
北海道大学大学院情報科学院 |
著者所属 |
|
|
|
北海道大学大学院情報科学研究院 |
著者所属 |
|
|
|
北海道大学大学院情報科学研究院 |
著者所属 |
|
|
|
北海道大学大学院情報科学研究院 |
著者所属 |
|
|
|
北海道大学大学院メディア・コミュニケーション研究院 |
著者名 |
北野, 勇太
横山, 想一郎
山下, 倫央
川村, 秀憲
伊藤, 孝行
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
明治憲法下の国会の記録である帝国議会議事速記録をコーパス化するためには,画像データとして保存された速記録をテキストデータに変換する必要がある.現在は,国立国会図書館の提供する OCR 技術「NDLOCR」を用いることで,画像データからの文字認識が約 90% の精度で行えるようになっている.しかし,速記録の内容を正確に分析するためには,テキスト化においてさらなる精度向上が求められている.特に旧字・異体字,印刷のかすれによる認識が困難な文字が多く含まれているため,OCR の技術発展だけでは向上は容易ではない.本研究では,この問題に対して,帝国議会議事速記録のテキストデータ修正支援システム「ハルニレ」を開発した.ハルニレは NDLOCR の認識対象となった画像データと文字認識の結果であるテキストを同時に表示することで,ユーザが NDLOCR の文字認識結果を容易に確認・修正することが可能となる.本稿では,ハルニレを利用して修正されたテキストや作業時間に基づいて,NDLOCR の文字認識の精度や誤認識修正の作業効率を算出し,ハルニレがもたらす修正作業の効率化の効果を評価する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN1010060X |
書誌情報 |
研究報告人文科学とコンピュータ(CH)
巻 2024-CH-136,
号 5,
p. 1-4,
発行日 2024-07-19
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8957 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |