ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 情報基礎とアクセス技術(IFAT)
  3. 2023
  4. 2023-IFAT-149

自然言語処理手法を用いたクックパッドデータの構造解析

https://ipsj.ixsq.nii.ac.jp/records/224393
https://ipsj.ixsq.nii.ac.jp/records/224393
12ac2529-52c2-42ae-8380-243239bfc466
名前 / ファイル ライセンス アクション
IPSJ-IFAT23149001.pdf IPSJ-IFAT23149001.pdf (958.9 kB)
Copyright (c) 2023 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2023-02-20
タイトル
タイトル 自然言語処理手法を用いたクックパッドデータの構造解析
タイトル
言語 en
タイトル Cluster Analysis of Cookpad Data by Natural Language Processing
言語
言語 jpn
キーワード
主題Scheme Other
主題 データの分析
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
京都産業大学大学院先端情報学研究科
著者所属
京都産業大学大学院先端情報学研究科
著者所属(英)
en
Kyoto Sangyo University
著者所属(英)
en
Kyoto Sangyo University
著者名 川上, 瑛之

× 川上, 瑛之

川上, 瑛之

Search repository
伊藤, 浩之

× 伊藤, 浩之

伊藤, 浩之

Search repository
著者名(英) Akiyuki, Kawakami

× Akiyuki, Kawakami

en Akiyuki, Kawakami

Search repository
Hiroyuki, Ito

× Hiroyuki, Ito

en Hiroyuki, Ito

Search repository
論文抄録
内容記述タイプ Other
内容記述 自然言語処理分野に大きな貢献をもたらした機械学習技術である word2vec は,学習データに含まれる単語間の関係性を元に各単語を高次元空間のベクトルとして表現する技術であり,単語の意味や類似性をベクトル空間に反映することが可能である.日本語や英語などの言語データを対象とした研究は数多く為されてきているが,本研究では,料理単語により構成される学習データを対象として word2vec を適用した際にも単語の意味や類似性が高次元ベクトル空間に反映されるのかを検証した.方法としては,国立情報学研究所からクックパッドデータの提供を受け,レシピ名と材料を並べたコーパスに対して CBOW モデルにより前後 10 個の単語からの単語の予測を学習させた.学習の結果として各単語を多数の隠れ層細胞の活動に埋め込む表現が構成される.得られた単語の高次元ベクトルを word2vec として用いて,単語間のベクトル演算を行ったところ,ある程度妥当な結果が得られたことから単語の関係性を構造化できていることが示された.この構造を更に解析するために,高次元ベクトル空間に UMAP による次元圧縮を適用し,単語の関係性の視覚化を行ったところ類似した単語が近接して分布していた.また,次元圧縮されたベクトル空間に教師なし学習である K-means クラスタリングを適用して得られたクラスター分類とクックパッドデータに付与されている経験的なレシピ分類との比較を行った.経験的なレシピ分類での「お菓子」,「お肉と野菜のおかず」,「調味料」,「パスタ・グラタン,シチュー・スープ・汁物」が教師なし学習でもクラスターとなっていることが確認され,単語データの並びのみから構築される分類は我々が経験的に行っている分類を部分的に説明できることが分かった.この結果はデータベースから自然言語処理を用いて新たな分類を引き出せる可能性を示唆する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10114171
書誌情報 研究報告情報基礎とアクセス技術(IFAT)

巻 2023-IFAT-149, 号 1, p. 1-6, 発行日 2023-02-20
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8884
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:10:29.216569
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3