E-026 JPドメインにおける茶筌を用いた中国語ページの抽出(E分野:自然言語)

魏, 小比; 内藤, 一兵衛; 上田, 和紀; WEI, Xiaobi; NAITO, Ichibe; UEDA, Kazunori

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

E-026 JPドメインにおける茶筌を用いた中国語ページの抽出(E分野:自然言語)

https://ipsj.ixsq.nii.ac.jp/records/155665

名前 / ファイル	ライセンス	アクション
KJ00006548014.pdf (555.1 kB)	Copyright (c) 2005 by IEICE,IPSJ

Item type

FIT(1)

公開日

2005-08-22

タイトル

E-026 JPドメインにおける茶筌を用いた中国語ページの抽出(E分野:自然言語)

タイトル

言語

タイトル

E-026 Extraction of Chinese pages from JP domain using ChaSen

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

早稲田大学大学院理工学研究科

著者所属

早稲田大学大学院理工学研究科

著者所属

早稲田大学理工学部

著者名

魏, 小比
内藤, 一兵衛
上田, 和紀

著者名(英)

WEI, Xiaobi
NAITO, Ichibe
UEDA, Kazunori

論文抄録

内容記述タイプ

Other

内容記述

JP度絵民には中国語ドキュメントが多く存在するが、あまり有効利用されていないのが現実である。中国語ページを抽出できれば、中国語を扱う人々に便利さをもたらすと共に、統計・語学・検索エンジンのデータベースなど様々な応用研究もできる。本研究では、形態素解析ツール茶筌を使用し、早稲田大学(88,634pages)と北京大学(25,241pages)のWEBページを全面的に分析し、単語の品詞種類と一文字で区切られる形態素の割合から中国語文章の特徴を突き止め、JPドメインにある多国語の混在しているHTMLファイルから中国語で書かれたページを抽出する手法を考案し、実行する事に成功した。また、その延長である様々な応用の可能性についても延る。

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AA11740605

書誌情報

情報科学技術フォーラム一般講演論文集

巻 4, 号 2, p. 179-182, 発行日 2005-08-22

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 14:05:05.475949

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

E-026 JPドメインにおける茶筌を用いた中国語ページの抽出(E分野:自然言語)

× 魏, 小比

× 内藤, 一兵衛

× 上田, 和紀

× WEI, Xiaobi

× NAITO, Ichibe

× UEDA, Kazunori

Versions

Share

Cite as

エクスポート