| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-05-10 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
マルチモーダル大規模言語モデルを活用したOCRシステムの構築 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Building an OCR System Leveraging Multimodal Large Language Models |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
名古屋大学 |
| 著者所属 |
|
|
|
桜美林大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Nagoya University |
| 著者所属(英) |
|
|
|
en |
|
|
J.F. Oberlin University |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo University |
| 著者名 |
岩田,直也
田中,一孝
小川,潤
|
| 著者名(英) |
Naoya Iwata
Ikko Tanaka
Jun Ogawa
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,マルチモーダル大規模言語モデル(mLLM)は,画像とテキストを複合的に理解・処理する能力をもち,OCR(光学文字認識)用途にも高い有効性を発揮することが報告されている.とりわけGoogleが提供する最新のLLM(Gemini 2.0 Flash)は,高度な画像認識精度を備え,研究用途としても利用可能な価格帯で提供されるようになったが,実際の運用に際しては,プログラミングに関する知識やAPI操作の経験が必要になるという課題が存在する.本研究では,このような最新の商用マルチモーダルLLMをバックエンドで利用しつつ,自然言語による簡便な指示(プロンプト入力)で柔軟に出力内容を調整可能なOCRシステムを開発した.本システムでは,特に学術研究分野で求められる複雑なレイアウトや注釈要素の除外に特化したユーザーインターフェースと,抽出テキストの自動校正フローを設計し,ノーコードで高精度なOCR処理を実現できる.本発表では,システムの設計思想とワークフロー,さらに古典文献を題材にした具体的な精度検証の結果を報告し,人文情報学分野におけるマルチモーダルLLMを活用したOCRシステムの可能性と課題を論じる. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN1010060X |
| 書誌情報 |
研究報告人文科学とコンピュータ(CH)
巻 2025-CH-138,
号 16,
p. 1-5,
発行日 2025-05-10
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8957 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |