| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-20 |
| タイトル |
|
|
タイトル |
自然言語処理手法を用いたクックパッドデータの構造解析 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Cluster Analysis of Cookpad Data by Natural Language Processing |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
データの分析 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都産業大学大学院先端情報学研究科 |
| 著者所属 |
|
|
|
京都産業大学大学院先端情報学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Kyoto Sangyo University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyoto Sangyo University |
| 著者名 |
川上, 瑛之
伊藤, 浩之
|
| 著者名(英) |
Akiyuki, Kawakami
Hiroyuki, Ito
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
自然言語処理分野に大きな貢献をもたらした機械学習技術である word2vec は,学習データに含まれる単語間の関係性を元に各単語を高次元空間のベクトルとして表現する技術であり,単語の意味や類似性をベクトル空間に反映することが可能である.日本語や英語などの言語データを対象とした研究は数多く為されてきているが,本研究では,料理単語により構成される学習データを対象として word2vec を適用した際にも単語の意味や類似性が高次元ベクトル空間に反映されるのかを検証した.方法としては,国立情報学研究所からクックパッドデータの提供を受け,レシピ名と材料を並べたコーパスに対して CBOW モデルにより前後 10 個の単語からの単語の予測を学習させた.学習の結果として各単語を多数の隠れ層細胞の活動に埋め込む表現が構成される.得られた単語の高次元ベクトルを word2vec として用いて,単語間のベクトル演算を行ったところ,ある程度妥当な結果が得られたことから単語の関係性を構造化できていることが示された.この構造を更に解析するために,高次元ベクトル空間に UMAP による次元圧縮を適用し,単語の関係性の視覚化を行ったところ類似した単語が近接して分布していた.また,次元圧縮されたベクトル空間に教師なし学習である K-means クラスタリングを適用して得られたクラスター分類とクックパッドデータに付与されている経験的なレシピ分類との比較を行った.経験的なレシピ分類での「お菓子」,「お肉と野菜のおかず」,「調味料」,「パスタ・グラタン,シチュー・スープ・汁物」が教師なし学習でもクラスターとなっていることが確認され,単語データの並びのみから構築される分類は我々が経験的に行っている分類を部分的に説明できることが分かった.この結果はデータベースから自然言語処理を用いて新たな分類を引き出せる可能性を示唆する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10114171 |
| 書誌情報 |
研究報告情報基礎とアクセス技術(IFAT)
巻 2023-IFAT-149,
号 1,
p. 1-6,
発行日 2023-02-20
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8884 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |