WEKO3
アイテム
ウェブ検索を利用したしきい値選択型テキストセグメンテーション
https://ipsj.ixsq.nii.ac.jp/records/18707
https://ipsj.ixsq.nii.ac.jp/records/187073b350c7a-041d-4ce9-8a5b-9dbfe57e8598
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-06-12 | |||||||
タイトル | ||||||||
タイトル | ウェブ検索を利用したしきい値選択型テキストセグメンテーション | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text Segmentation using Web Search with Threshold Selection | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバーソリューション研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバーソリューション研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバーソリューション研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバーソリューション研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Solutions Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Solutions Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Solutions Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Solutions Laboratories, NTT Corporation | ||||||||
著者名 |
阿部, 直人
× 阿部, 直人
|
|||||||
著者名(英) |
Naoto, Abe
× Naoto, Abe
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | テキストセグメンテーションは与えられたテキストを内容に応じて意味段落に分割する手法である.著者らは事前に学習データを必要としない手法として名詞検索法を提案した.しかし,話し言葉で書かれたテキストに対して算出した連結度や段落境界の決定方法が局所的な内容の変動の影響を受け易く,テキストセグメンテーションの精度に悪影響を与える問題があった.そこで,本論文では局所的な内容変動を吸収する連結度の算出方法と,それに基づいて境界位置決定のためのしきい値選択を行うテキストセグメンテーション手法を提案する.実際のニューステキストやブログテキストを用いた実験を行った.その結果,ニューステキストを用いた実験では F 値で 18.5 ポイント,ブログテキストでは 26.7 ポイントの改善が見られた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Text segmentation is to split a text into subparagraphs according to the contents. We proposed a text segmentation method based on Web search. However, the performance of our method was degraded for the text which is written in spoken language like blog text. Therefore, in this study, we propose a text segmentation method that selects a threshold to determine the boundaries of coherent paragraphs automatically considering the difference of contents between subparagraphs. We examined the performance of proposed method using real-world news texts and blog texts. The experimental result showed 18.5 points increase off-value accuracy in news texts and 26.7 points improvoment in blog texts. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2008, 号 56(2008-DBS-145), p. 121, 発行日 2008-06-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |