| Item type |
SIG Technical Reports(1) |
| 公開日 |
2026-02-28 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
Neural KWIC:KWIC形式用例からの動的単語埋め込みの獲得と分析 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
埋め込み・検索 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
一橋大学 |
| 著者所属 |
|
|
|
一橋大学 |
| 著者所属 |
|
|
|
一橋大学 |
| 著者所属 |
|
|
|
一橋大学 |
| 著者所属 |
|
|
|
国立国語研究所 |
| 著者所属 |
|
|
|
産業技術総合研究所人工知能研究センター |
| 著者所属 |
|
|
|
国立国語研究所/統計数理研究所統計基盤数理研究系 |
| 著者名 |
島田,真緒
木山,朔
凌,志棟
小町,守
小木曽,智信
高村,大也
持橋,大地
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では、KWICによって検索された対象単語の文脈表現を変換する関数を学習し、事前学習済み言語モデルに基づく動的単語埋め込みを近似して分析する手法を提案する。KWIC (Keyword-in-Context)とは、コーパス内において指定したキーワードとその前後の文脈を固定長で局所的に取り出す文脈付きの索引の形式であり、言語学的分析において広く用いられている。しかし、実応用上の場面においては、大量のKWIC用例の全容を解釈することは困難である。そこで本研究では、検索されたKWIC用例から単語埋め込みを動的に計算し、埋め込み空間上でKWICを可視化することにより、解釈性を向上することを目的とする。変換関数の学習時には、入力としてKWIC形式で取得した文脈単語列を用い、事前学習済みの静的単語埋め込みで符号化した上で、出現順に連結した表現を採用する。これらの埋め込み表現を変換関数に入力し、正解として与えた事前学習済み言語モデルを近似する単語埋め込みを出力する。評価実験では、複数の対象単語に対してその語の出現文脈をKWIC形式で取得し、本手法を適用した。得られた動的単語埋め込みに基づき、辞書により定義された語義数をクラスタ数として設定して可視化を行い、BERTによる単語埋め込みとの一致度を定量的に評価した。実験の結果、本手法は計算効率と実用性に優れており、KWIC形式に対応した動的単語埋め込みが高速に得られることを示した。また、埋め込み空間上での可視化を通じて、大量のKWIC用例に対する解釈性を高められることを示した。 |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2026-NL-267,
号 19,
p. 1-35,
発行日 2026-02-28
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |