@techreport{oai:ipsj.ixsq.nii.ac.jp:00224393, author = {川上, 瑛之 and 伊藤, 浩之 and Akiyuki, Kawakami and Hiroyuki, Ito}, issue = {1}, month = {Feb}, note = {自然言語処理分野に大きな貢献をもたらした機械学習技術である word2vec は,学習データに含まれる単語間の関係性を元に各単語を高次元空間のベクトルとして表現する技術であり,単語の意味や類似性をベクトル空間に反映することが可能である.日本語や英語などの言語データを対象とした研究は数多く為されてきているが,本研究では,料理単語により構成される学習データを対象として word2vec を適用した際にも単語の意味や類似性が高次元ベクトル空間に反映されるのかを検証した.方法としては,国立情報学研究所からクックパッドデータの提供を受け,レシピ名と材料を並べたコーパスに対して CBOW モデルにより前後 10 個の単語からの単語の予測を学習させた.学習の結果として各単語を多数の隠れ層細胞の活動に埋め込む表現が構成される.得られた単語の高次元ベクトルを word2vec として用いて,単語間のベクトル演算を行ったところ,ある程度妥当な結果が得られたことから単語の関係性を構造化できていることが示された.この構造を更に解析するために,高次元ベクトル空間に UMAP による次元圧縮を適用し,単語の関係性の視覚化を行ったところ類似した単語が近接して分布していた.また,次元圧縮されたベクトル空間に教師なし学習である K-means クラスタリングを適用して得られたクラスター分類とクックパッドデータに付与されている経験的なレシピ分類との比較を行った.経験的なレシピ分類での「お菓子」,「お肉と野菜のおかず」,「調味料」,「パスタ・グラタン,シチュー・スープ・汁物」が教師なし学習でもクラスターとなっていることが確認され,単語データの並びのみから構築される分類は我々が経験的に行っている分類を部分的に説明できることが分かった.この結果はデータベースから自然言語処理を用いて新たな分類を引き出せる可能性を示唆する.}, title = {自然言語処理手法を用いたクックパッドデータの構造解析}, year = {2023} }