WEKO3
アイテム
Transformers を用いた古典中国語(漢文)文切りモデルの製作
https://ipsj.ixsq.nii.ac.jp/records/215776
https://ipsj.ixsq.nii.ac.jp/records/215776c7deb0a1-6803-4d43-a2cf-8fd84bc0ef2d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2021-12-04 | |||||||
タイトル | ||||||||
タイトル | Transformers を用いた古典中国語(漢文)文切りモデルの製作 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Sentence Segmentation of Classical Chinese Texts Using Transformers and BERT/RoBERTa Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
京都大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto University | ||||||||
著者名 |
安岡, 孝一
× 安岡, 孝一
|
|||||||
著者名(英) |
Koichi, Yasuoka
× Koichi, Yasuoka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 古典中国語(漢文) は,単語と単語の間に区切りがなく,文と文の間にも区切りがない.これが,白文と呼ばれる古典中国語の書写形態であり,傍目には,漢字が連続的に並んでいるだけである.それゆえ,白文に対する言語処理は,単語と単語の間を区切る「単語切り」(word tokenization) と,文と文の間を区切る「文切り」(sentencesegmentation) から始まる.本稿では,Transformers を用いた古典中国語の「文切り」手法と,それに伴う古典中国語「文切り」モデルの製作について述べる.これに加え,Transformers を用いた古典中国語の「単語切り」を,品詞付与と同時に行う手法についても述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Classical Chinese texts do not have any spaces or punctuations between words or between sentences. They consist of continuous strings of Chinese characters from the start to the end. The analysis of classical Chinese texts has to begin with finding out word-boundaries and sentence-boundaries, i.e. word tokenization and sentence segmentation. In this paper we discuss the sentence segmentation of classical Chinese texts using Transformers, which is designed for natural language processing with pre-trained language models such as BERT and RoBERTa. In the appendix we discuss the word tokenization (and Part-Of-Speech tagging) of classical Chinese texts using Transformers. | |||||||
書誌情報 |
じんもんこん2021論文集 巻 2021, p. 104-109, 発行日 2021-12-04 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |