マルチモーダル大規模言語モデルを活用したOCRシステムの構築

岩田,直也; 田中,一孝; 小川,潤; Naoya Iwata; Ikko Tanaka; Jun Ogawa

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

マルチモーダル大規模言語モデルを活用したOCRシステムの構築

https://ipsj.ixsq.nii.ac.jp/records/2001903

名前 / ファイル	ライセンス	アクション
IPSJ-CH25138016.pdf (528.5 KB) 2027年5月10日からダウンロード可能です。	Copyright (c) 2025 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, CH:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2025-05-10

タイトル

言語

タイトル

マルチモーダル大規模言語モデルを活用したOCRシステムの構築

タイトル

言語

タイトル

Building an OCR System Leveraging Multimodal Large Language Models

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

名古屋大学

著者所属

桜美林大学

著者所属

東京大学

著者所属(英)

Nagoya University

著者所属(英)

J.F. Oberlin University

著者所属(英)

Tokyo University

著者名

岩田,直也
田中,一孝
小川,潤

著者名(英)

Naoya Iwata
Ikko Tanaka
Jun Ogawa

論文抄録

内容記述タイプ

Other

内容記述

近年，マルチモーダル大規模言語モデル（mLLM）は，画像とテキストを複合的に理解・処理する能力をもち，OCR（光学文字認識）用途にも高い有効性を発揮することが報告されている．とりわけGoogleが提供する最新のLLM（Gemini 2.0 Flash）は，高度な画像認識精度を備え，研究用途としても利用可能な価格帯で提供されるようになったが，実際の運用に際しては，プログラミングに関する知識やAPI操作の経験が必要になるという課題が存在する．本研究では，このような最新の商用マルチモーダルLLMをバックエンドで利用しつつ，自然言語による簡便な指示（プロンプト入力）で柔軟に出力内容を調整可能なOCRシステムを開発した．本システムでは，特に学術研究分野で求められる複雑なレイアウトや注釈要素の除外に特化したユーザーインターフェースと，抽出テキストの自動校正フローを設計し，ノーコードで高精度なOCR処理を実現できる．本発表では，システムの設計思想とワークフロー，さらに古典文献を題材にした具体的な精度検証の結果を報告し，人文情報学分野におけるマルチモーダルLLMを活用したOCRシステムの可能性と課題を論じる．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN1010060X

書誌情報

研究報告人文科学とコンピュータ（CH）

巻 2025-CH-138, 号 16, p. 1-5, 発行日 2025-05-10

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8957

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-04-30 01:52:43.183547

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

マルチモーダル大規模言語モデルを活用したOCRシステムの構築

× 岩田,直也

× 田中,一孝

× 小川,潤

× Naoya Iwata

× Ikko Tanaka

× Jun Ogawa

Versions

Share

Cite as

エクスポート