2024-03-29T01:38:33Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001244582023-11-17T02:17:36Z06504:08043:08048
日本語形態素解析への複数ハッシュふるい分けの応用Screening by multiple open hashing for Japanese token analysisjpnhttp://id.nii.ac.jp/1001/00124638/Conference Paperhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=124458&item_no=1&attribute_id=1&file_no=1図書館情報大学図書館情報大学中本, 賢一山本, 毅雄最近、大きなメモリが利用できるようになり、並列処理が普及しつつある。自然言語処理のアルゴリズムはこの変化を反映する必要がある。しかしメモリが大きくなっても、長い語長のキーをきわめて多数持つ辞書を、通常のハッシュ表にすることは、必ずしも常に可能ではない。本研究では「複数ハッシュふるい分け」の形態素解析への応用について述べる。「ふるい分け」とは、与えられたキーがあるデータ集合中に存在するかどうかを調べることである。複数ハッシュふるい分けでは、複数のハッシュアドレス生成に互いに独立なn個の異なるハッシュ関数を使用し、ハッシュ表の該当アドレスにはデータの存在を示す1ビットのフラグを置く。探索時には同じハッシュ関数のセットを用いて探索キーをハッシュし、すべてのアドレスの内容が1であれば、辞書中のキーと一致したとみなす。この方法ではハッシュ表が比較的小さくなり、また並列処理の適用が容易である。また、本研究では長い文字列を「畳み込む」ためのアルゴリズムについても検討する。AN00349328全国大会講演論文集第47回人工知能及び認知科学1571581993-09-272015-01-20