| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-08-21 |
| タイトル |
|
|
タイトル |
デーヴァナーガリー文字OCRの開発 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Development of a <i>Devanāgarī</i> Optical Character Recognition (OCR) System |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学人文社会系研究科 |
| 著者所属 |
|
|
|
公益財団法人中村元東方研究所 |
| 著者所属 |
|
|
|
東京大学人文社会系研究科 |
| 著者所属 |
|
|
|
凸版印刷株式会社情報コミュニケーション事業本部 |
| 著者所属 |
|
|
|
凸版印刷株式会社情報コミュニケーション事業本部 |
| 著者所属 |
|
|
|
凸版印刷株式会社総合研究所 |
| 著者所属 |
|
|
|
凸版印刷株式会社総合研究所 |
| 著者名 |
加藤, 隆宏
友成, 有紀
谷口, 力光
大澤, 留次郎
藤巻, 聡
岡田, 崇
橋本, 江美
|
| 著者名(英) |
Takahiro, Kato
Yūki, Tomonari
Chikamitsu, Taniguchi
Tomejiro, Osawa
Satoshi, Fujimaki
Takashi, Okada
Emi, Hashimoto
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本発表は,多くのインド諸語表記に用いられる文字であるデーヴァナーガリー文字を読み取るための光学文字認識(OCR)ソフトウェアを開発するために,サンスクリット文献学の専門家とくずし字 AI-OCR 開発などを手がける凸版印刷株式会社との間で行った共同研究に関する報告である.デーヴァナーガリー文字はヒンディー語,マラーティー語,ネパール語などの現代語のみならず,インド圏の文化や歴史などについて多くの史資料を残すサンスクリット語の表記のための主要な文字として使用されてきた.サンスクリット文献学の分野において,サンスクリット語文献のデジタルアーカイブ化・テキストデータベース化は最重要課題であり,これまでドイツ,日本,インドを中心として様々なプロジェクトが展開されてきた.しかしながら,これらのプロジェクトはいずれも手作業(タイピング)によるデータ化が中心であり,個々の研究者の多大な時間と労力と引き換えに築かれてきたものである.今回の研究は,これまで手作業で行われてきたテキストデータ採取の方法を自動化するための OCR を開発し,それによりサンスクリット文献のテキストデータベース化を加速させることを目的とする.重要なサンスクリット文献群を収めるアーナンダ・アーシュラマ・サンスクリット・シリーズ(Anandasrama Sanskrit Series)に収録された文献群を資料として用い,文字システムや文法構造についての専門知識を有する研究者と OCR 技術の開発者が共同して,矩形(データ採取の際に四角形で囲む文字の最小単位)の範囲設定,翻刻・データ化の方法などを検討した.こうして準備された「字形データベース」をもとにした AI-OCR を生成し,その読み取り精度を再検討した.直近の課題としては活版文字に対応した AI-OCR を新たに開発することによって,将来に予想される手書き文字の OCR 開発事業の足掛かりとするとともに,この分野での着実な成果を目指した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper outlines some specific objectives of the research project cooperatively run by Sanskrit language experts and AI-OCR developers and discusses the process of designing “training data” through which an AI-OCR is generated. We also review some data obtained from the AI-OCR and clarify some problems found there. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN1010060X |
| 書誌情報 |
研究報告人文科学とコンピュータ(CH)
巻 2021-CH-127,
号 1,
p. 1-4,
発行日 2021-08-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8957 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |