WEKO3
アイテム
Web上の画像から意味のある式を抽出するための数式フィルタの作成
https://ipsj.ixsq.nii.ac.jp/records/212218
https://ipsj.ixsq.nii.ac.jp/records/212218f4fb8aac-2779-4688-87ae-d2e30e95d505
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2021-07-23 | |||||||||
タイトル | ||||||||||
タイトル | Web上の画像から意味のある式を抽出するための数式フィルタの作成 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | テキストの処理と理解 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
大阪市立大学 | ||||||||||
著者所属 | ||||||||||
大阪市立大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Osaka City University | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Osaka City University | ||||||||||
著者名 |
山田, 奉子
× 山田, 奉子
× 村上, 晴美
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 数学情報検索(MIR)に関する研究は多数あるが,MathML や TeX で表された数式を解析するものがほとんどである.一方で,Web 上には数式画像を含む文書が多数存在するが,数式画像に関する研究は少ない.本研究は,Web 上の HTML 文書から,fh(x) = 1/nhΣni = 1K(x-xi/h) のような「コンパクトに表現された単独で意味のある数式」を抽出するものである.文書中の画像を教師あり機械学習の手法で,意味のある数式とそうでないものに二値分類する.深層学習以外の機械学習の手法と畳み込みネットワーク(CNN)の手法を比較した結果,VGG16 を用いた転移学習とファインチューニングを行った CNN の手法が一番良く,マシューズ相関係数(MCC)が 0.771,F 値が 0.814 であった.さらに応用事例として,数学用語をクエリとして Web 検索を行い,その用語と関連する数式を上位 10 件提示するという先行研究に対して,先行研究で使用した SVM による分類器を本研究で最も性能が良い CNN に置き換えたところ,F 値・MAP・MRR のいずれも先行研究を上回った. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10114171 | |||||||||
書誌情報 |
研究報告情報基礎とアクセス技術(IFAT) 巻 2021-IFAT-143, 号 3, p. 1-6, 発行日 2021-07-23 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8884 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |