@techreport{oai:ipsj.ixsq.nii.ac.jp:02001903, author = {岩田,直也 and 田中,一孝 and 小川,潤 and Naoya Iwata and Ikko Tanaka and Jun Ogawa}, issue = {16}, month = {May}, note = {近年,マルチモーダル大規模言語モデル(mLLM)は,画像とテキストを複合的に理解・処理する能力をもち,OCR(光学文字認識)用途にも高い有効性を発揮することが報告されている.とりわけGoogleが提供する最新のLLM(Gemini 2.0 Flash)は,高度な画像認識精度を備え,研究用途としても利用可能な価格帯で提供されるようになったが,実際の運用に際しては,プログラミングに関する知識やAPI操作の経験が必要になるという課題が存在する.本研究では,このような最新の商用マルチモーダルLLMをバックエンドで利用しつつ,自然言語による簡便な指示(プロンプト入力)で柔軟に出力内容を調整可能なOCRシステムを開発した.本システムでは,特に学術研究分野で求められる複雑なレイアウトや注釈要素の除外に特化したユーザーインターフェースと,抽出テキストの自動校正フローを設計し,ノーコードで高精度なOCR処理を実現できる.本発表では,システムの設計思想とワークフロー,さらに古典文献を題材にした具体的な精度検証の結果を報告し,人文情報学分野におけるマルチモーダルLLMを活用したOCRシステムの可能性と課題を論じる.}, title = {マルチモーダル大規模言語モデルを活用したOCRシステムの構築}, year = {2025} }