WEKO3
アイテム
エジプトロ語アラビア語コーパスの構築に向けて
https://ipsj.ixsq.nii.ac.jp/records/55045
https://ipsj.ixsq.nii.ac.jp/records/5504548d94ca3-0143-4678-983b-8b06bf17765a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-10-28 | |||||||
タイトル | ||||||||
タイトル | エジプトロ語アラビア語コーパスの構築に向けて | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Towards the construction of a corpus of Egyptian colloquial Arabic | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
大阪大学大学院言語文化研究科 | ||||||||
著者所属 | ||||||||
山口県立大学 | ||||||||
著者所属 | ||||||||
東京外国語大学アジア・アフリカ言語文化研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Language and Culture, Osaka University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yamaguchi Prefectural University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Research Institute for Languages and Cultures of Asia and Africa, Tokyo University of Foreign Studies | ||||||||
著者名 |
中道, 静香
× 中道, 静香
|
|||||||
著者名(英) |
Shizuka, NAKAMICHI
× Shizuka, NAKAMICHI
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報告では言語研究および語学教育に利用可能な口語アラビア語コーパスのデザインを検討し、その上で報告者らが現在構築を進めているエジプト映画コーパスについて紹介する。正書法が定まっていない口語アラビア語を対象とするコーパス構築においては、まずエンコーディング・入力・出力の方法に関する基盤整備が重要な作業となるが、本報告においてはエジプトの口語アラビア語(エジプト方言)の言語的特徴と表記上の特徴をふまえ、有効と思われるコーパス作成の方策を提示する。ここで紹介するコーパスは、子音情報中心の入力用ラテン文字テキスト、アラビア文字テキスト、母音情報を加えた転写文字テキストの3種から構成され、多様な検索・出力に対応する柔軟性を備えている。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper presents a design for implementing a corpus of Egyptian colloquial Arabic. The corpus is intended for use in linguistic research and language education. Because it does not have well-defined orthography, creating a corpus for colloquial Arabic presents some difficulties. We examine grammatical features and the writing system of Egyptian colloquial Arabic, and suggest an improved method for inputting and outputting the data. We also introduce a corpus of Egyptian films as a sample, the text of which has been encoded using the following character codes: Unicode Latin-1, Unicode Arabic and an additional Latin-based code. This design will provide more flexible search and output options. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN1010060X | |||||||
書誌情報 |
情報処理学会研究報告人文科学とコンピュータ(CH) 巻 2005, 号 105(2005-CH-068), p. 25-32, 発行日 2005-10-28 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |