WEKO3
アイテム
『日本語話し言葉コーパス』における自己修復部(Dタグ)の自動検出および修正に関する検討
https://ipsj.ixsq.nii.ac.jp/records/48045
https://ipsj.ixsq.nii.ac.jp/records/48045a4267a0b-71de-4087-8ed2-6a0231c5d56f
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2005-05-27 | |||||||
| タイトル | ||||||||
| タイトル | 『日本語話し言葉コーパス』における自己修復部(Dタグ)の自動検出および修正に関する検討 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Automatic Detection and Correction of Self-Repairs in the Corpus of Spontaneous Japanese | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 京都大学 | ||||||||
| 著者所属 | ||||||||
| 京都大学 | ||||||||
| 著者所属 | ||||||||
| 情報通信研究機構 | ||||||||
| 著者所属 | ||||||||
| 情報通信研究機構 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Kyoto Univ. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Kyoto Univ. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NICT | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NICT | ||||||||
| 著者名 |
下岡, 和也
河原, 達也
内元, 清貴
井佐原, 均
× 下岡, 和也 河原, 達也 内元, 清貴 井佐原, 均
|
|||||||
| 著者名(英) |
Kazuya, Shitaoka
Tatsuya, Kawahara
Kiyotaka, Uchimoto
Hitoshi, Isahara
× Kazuya, Shitaoka Tatsuya, Kawahara Kiyotaka, Uchimoto Hitoshi, Isahara
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 話し言葉においては,繰り返しや言い直しなどの自己修復部が数多く存在するが,書き起こしの整形過程においてこれらは削除・修正されるのが一般的である. 『日本語話し言葉コーパス』(CSJ)においては,このような文節に対してDタグが付与されている.本研究ではまず,このDタグが付与されている自己修復部を自動検出する手法について検討する.具体的には,形態素や係り受けの情報を用いて機械学習を行い,実験的評価を示す.次に,このような自己修復部を,文整形・編集においてどのように処理すべきかについて検討する.当該文節に関する係り受け関係に基づいて場合分けを行うことで,削除すべき範囲を適切に同定できることを示す. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | In the transcripts of spontaneous speech, there are many self-repairs as well as fillers, and they are usually corrected by human editors. In the Corpus of Spontaneous Japanese (CSJ), a special tag (D-tag) is attached to the bunsetsu units of this kind of phenomenon. We present a method to detect such units based on a machine learning technique. Then, we investigate how to correct them, by classifying them based on the dependency structures. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10115061 | |||||||
| 書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2005, 号 50(2005-NL-167), p. 95-100, 発行日 2005-05-27 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||