@techreport{oai:ipsj.ixsq.nii.ac.jp:00237421, author = {北野, 勇太 and 横山, 想一郎 and 山下, 倫央 and 川村, 秀憲 and 伊藤, 孝行}, issue = {5}, month = {Jul}, note = {明治憲法下の国会の記録である帝国議会議事速記録をコーパス化するためには,画像データとして保存された速記録をテキストデータに変換する必要がある.現在は,国立国会図書館の提供する OCR 技術「NDLOCR」を用いることで,画像データからの文字認識が約 90% の精度で行えるようになっている.しかし,速記録の内容を正確に分析するためには,テキスト化においてさらなる精度向上が求められている.特に旧字・異体字,印刷のかすれによる認識が困難な文字が多く含まれているため,OCR の技術発展だけでは向上は容易ではない.本研究では,この問題に対して,帝国議会議事速記録のテキストデータ修正支援システム「ハルニレ」を開発した.ハルニレは NDLOCR の認識対象となった画像データと文字認識の結果であるテキストを同時に表示することで,ユーザが NDLOCR の文字認識結果を容易に確認・修正することが可能となる.本稿では,ハルニレを利用して修正されたテキストや作業時間に基づいて,NDLOCR の文字認識の精度や誤認識修正の作業効率を算出し,ハルニレがもたらす修正作業の効率化の効果を評価する.}, title = {帝国議会議事速記録のテキストデータ作成に向けたテキスト修正支援ツールの開発}, year = {2024} }