Item type |
SIG Technical Reports(1) |
公開日 |
2023-11-09 |
タイトル |
|
|
タイトル |
潜在拡散モデルを用いた文書画像の歪み補正と再照明 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Diffusion-based Geometric Unwarping and Illumination Correction for Document Images |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
筑波大学 |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba |
著者名 |
今林, 颯大
ハオ, グオチン
飯塚, 里志
福井, 和広
|
著者名(英) |
Sota, Imahayashi
Guoqing, Hao
Satoshi, Iizuka
Kazuhiro, Fukui
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,潜在拡散モデルを用いて文書画像の歪み補正と再照明を行い,その視認性を向上させる手法を提案する.文書画像は撮影条件によって折り目や傾きといった歪みや,影が写り込む場合がある.これらの歪みや影は,視認性の低下や OCR (Optical Character Recognition) において大きな問題となる可能性がある.近年では,畳み込みニューラルネットワークを用いて歪み補正や再照明を行う手法が提案されているが,幾何変形を伴う画像変換を扱うのは難しく,複雑な歪みの補正や高精度の再照明は未だに困難である.本研究では,これらの問題を解決するために潜在拡散モデルを用いた,文書画像の歪み補正と再照明を行う手法を提案する.提案手法では,歪みや影を含んだ劣化画像をピクセル空間から潜在空間へ変換し,ガウシアンノイズと連結させる.その後,ノイズ除去ネットワークによりノイズを取り除く処理を繰り返すことで,完全にノイズを除去した潜在表現を生成する.最後に,生成された潜在表現をピクセル空間に変換し,歪み補正と再照明を行った出力画像を得る.拡散モデルは生成品質が高く,最尤推定によって学習するため多様なデータの生成が可能であり,かつ安定して学習させることができる.また,部分情報から残りを復元することや,条件付きで生成を制御することもできるため,劣化画像を条件として歪み補正と再照明を行った画像の生成が可能となる.この手法により,実際の文書画像の多様な場面においても高品質な結果を実現し,幅広い応用可能性を持つことが期待される. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This study proposes a method to improve the visibility of document images by correcting distortions and re-illuminating them using a latent diffusion model. Document images often suffer from folds, tilt, and shadows. Such distortions and shadows significantly diminish image visibility, posing a challenge for optical character recognition (OCR) tasks. Recent methods using convolutional neural networks have attempted to correct distortions and re-illuminate, but image transformations involving geometric deformations are difficult, and it is still difficult to correct distortions and re-illuminate with high accuracy. In this study, we propose a method for correcting distortion and re-illumination of document images using a latent diffusion model to solve these problems. In the proposed method, a degraded image containing distortions and shadows is transformed from pixel space to latent space and concatenated with Gaussian noise. Then, the process of removing the noise is repeated by a denoising network to generate a latent representation with completely removed noise. Finally, the generated latent representation is converted to pixel space, and the output image is obtained after distortion correction and re-illumination. The diffusion model has high generative capacity and is trained by maximum likelihood estimation, allowing for the generation of a wide variety of data and stable training. It can also recover the remainder from partial information and conditionally control the generation, making it possible to generate images with distortion correction and re-illumination conditional on a degraded image. This method is expected to achieve high-quality results in a wide variety of real-world document images, and has a wide range of potential applications. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10100541 |
書誌情報 |
研究報告コンピュータグラフィックスとビジュアル情報学(CG)
巻 2023-CG-192,
号 50,
p. 1-6,
発行日 2023-11-09
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8949 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |