Item type |
FIT(1) |
公開日 |
2005-08-22 |
タイトル |
|
|
タイトル |
E-026 JPドメインにおける茶筌を用いた中国語ページの抽出(E分野:自然言語) |
タイトル |
|
|
言語 |
en |
|
タイトル |
E-026 Extraction of Chinese pages from JP domain using ChaSen |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
早稲田大学大学院理工学研究科 |
著者所属 |
|
|
|
早稲田大学大学院理工学研究科 |
著者所属 |
|
|
|
早稲田大学理工学部 |
著者名 |
魏, 小比
内藤, 一兵衛
上田, 和紀
|
著者名(英) |
WEI, Xiaobi
NAITO, Ichibe
UEDA, Kazunori
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
JP度絵民には中国語ドキュメントが多く存在するが、あまり有効利用されていないのが現実である。中国語ページを抽出できれば、中国語を扱う人々に便利さをもたらすと共に、統計・語学・検索エンジンのデータベースなど様々な応用研究もできる。本研究では、形態素解析ツール茶筌を使用し、早稲田大学(88,634pages)と北京大学(25,241pages)のWEBページを全面的に分析し、単語の品詞種類と一文字で区切られる形態素の割合から中国語文章の特徴を突き止め、JPドメインにある多国語の混在しているHTMLファイルから中国語で書かれたページを抽出する手法を考案し、実行する事に成功した。また、その延長である様々な応用の可能性についても延る。 |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11740605 |
書誌情報 |
情報科学技術フォーラム一般講演論文集
巻 4,
号 2,
p. 179-182,
発行日 2005-08-22
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |