| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-12-02 |
| タイトル |
|
|
タイトル |
深層学習による物体検出モデルの文字認識器としての適性について---YOLOv7の日本語文字認識器としての適性--- |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Suitability of Deep Learning Object Detection Models as a Character Recognizer---YOLOv7's Suitability as a Japanese Character Recognizer--- |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
奈良女子大学 |
| 著者所属 |
|
|
|
奈良女子大学 |
| 著者所属 |
|
|
|
奈良女子大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
| 著者名 |
松田, 悠
畔柳, 愛子
松本, 尚
|
| 著者名(英) |
Haruka, Matsuda
Aiko, Kuroyanagi
Takashi, Matsumoto
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
広く活用されている文字認識 (OCR) 技術は,文字領域の検出工程と文字の認識工程ごとに分けて行っているため,前処理など多くの工程と文字単位や行単位の文字認識作業の繰り返しが必要となる.一方,深層学習による物体検出器を文字認識に流用することにより,前処理無しで複数の文字検出 (物体検出と認識) を同時に行うことができる.松本研究室では,物体検出器の YOLO (You Only Look Once)v3 を利用した日本語文字認識が,学習方法や文字判定方法に工夫を施すことにより,実用レベルで実現可能なことを示した.YOLO には後継のバージョンが複数存在しているが,どのバージョンが文字認識に適しているかまでは精査されていない.本論文では,YOLOv7 に焦点を当てて,文字認識器としての適性を調べる.YOLOv7 は,畳み込み層を含む基本構造に ELAN (またはE-ELAN) を採用し,高精度と高速性を謳い,v3 同様のアンカーベース方式,用途に合わせたモデル選択可能を特徴とする物体検出器である.YOLOv7 と YOLOv3 に関して,文字認識の推論および学習の性能を比較して,どちらがより日本語文字認識用の物体検出モデルとして優れているかを明らかにする. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Widely used character recognition (OCR) technologies are divided into two processes, one for detecting character regions and the other for recognizing characters, which requires a large number of pre-processing steps and repetition of character recognition work for each character or line. On the other hand, by using a deep learning object detector for character recognition, multiple character detection (object detection and recognition) can be performed simultaneously without preprocessing. Matsumoto Laboratory has shown that Japanese character recognition using the object detector YOLO (You Only Look Once) v3 is feasible at a practical level by devising a learning method and character recognition method. Although there are several successor versions of YOLO, which version is more suitable for character recognition has not been thoroughly investigated. In this paper, we focus on YOLOv7 to investigate its suitability as a character recognizer. YOLOv7 is an object detector that employs ELAN (or E-ELAN) as its basic structure including convolutional layers, claims high accuracy and high speed, uses the same anchor-based method as v3, and allows users to select a model according to their purposes. We compare the inference and learning performance of YOLOv7 and YOLOv3 in character recognition, and show which model is better as an object detection model for Japanese character recognition. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10505667 |
| 書誌情報 |
研究報告数理モデル化と問題解決(MPS)
巻 2024-MPS-151,
号 14,
p. 1-6,
発行日 2024-12-02
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8833 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |