大容量テキストのn-gram統計とその応用の検討

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

大容量テキストのn-gram統計とその応用の検討

https://ipsj.ixsq.nii.ac.jp/records/125605

名前 / ファイル	ライセンス	アクション
KJ00001332394.pdf (140.0 kB)

Item type		National Convention(1)
公開日		1994-03-07
タイトル
	タイトル	大容量テキストのn-gram統計とその応用の検討
タイトル
	言語	en
	タイトル	A study on n-gram statistics of large text and its application
言語
	言語	jpn
資源タイプ
	資源タイプ識別子	http://purl.org/coar/resource_type/c_5794
	資源タイプ	conference paper
著者所属
		RWCP新機能三菱研究室
著者所属(英)
		en
		Real World Computing Partnership Novel Functions Mitsubishi Laboratory
論文抄録
	内容記述タイプ	Other
	内容記述	様々なソースから流入するリアルタイム情報の自然言語処理方法が問題になっている。リアルタイム情報は、情報サイクルが短く、語彙が経時的に増大するため、従来主流であった辞書やルールベースを利用した自然言語処理モデルでは、対応が困難である。そこで近年、統計情報を利用した自然言語処理モデルが注目されている。自然言語処理に対し統計情報を利用するモデルは、従来からも音声認識などでは成功を収めていたが、日本語テキストでは使用される文字種が多いため、適用は困難視されていた。しかし、近年の計算機の進歩により、日本語に関しても、統計的に十分大きな量のテキストから統計情報を求めることが、可能になってきている。だが、現時点では、統計情報の利用に際し「どの統計量が有効なのか」「標本とするテキストの量はどの程度必要なのか」に対する検討は十分行なわれてはいない。そこで、筆者は、数万件の新聞記事に対しn-gram統計をとり、上の問題を考察したので以下に報告する。
書誌レコードID
	収録物識別子タイプ	NCID
	収録物識別子	AN00349328
書誌情報		全国大会講演論文集巻第48回, 号ソフトウェア, p. 153-154, 発行日 1994-03-07
出版者
	言語	ja
	出版者	情報処理学会