Item type |
Symposium(1) |
公開日 |
2023-12-02 |
タイトル |
|
|
タイトル |
歴史災害史料からの自動地名抽出に向けた自然言語処理システムの性能評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Performance Evaluation of Natural Language Processing Systems for Automatic Place Name Extraction from Historical Disaster Documents |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
歴史災害; 自然言語処理; 地名; 歴史史料 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
立命館大学 文学研究科 |
著者所属 |
|
|
|
奈良先端科学技術 大学 |
著者所属 |
|
|
|
国立研究開発法人情報通信研究機構 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Letters, Ritsumeikan University |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
著者名 |
武内, 樹治
大内, 啓樹
東山, 翔平
|
著者名(英) |
Mikiharu, Takeuchi Hiroki Ouchi Shohei Higashiyama
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
歴史災害について記述された歴史史料 から,地名や位置情報といった地理的情報を抽出し, データベースや 地図に統合 ・可視化 することで, 災害の詳細な状況 の調査・分析を高度化・ 効率化できると期待できる. 本報告では ,自然言語処理技術を用いて ,近世の歴史災害に関する史料から地名を抽出する取り組みを報告 する.人手で地名をアノテーションしたデータセットを作成し ,地名抽出に利用可能な既存の自然言語処理システム ,GiNZAおよび ChatGPT(GPT -3.5,GPT -4)の抽出精度の評価と誤り事例の 分析を行った .GiNZAの現代語向けモデルでは十分な精度が得られず, GPT -4では期待の持てる結果が得られたものの ,コスト上の課題があることを確認した. 今後は事前学習済みモデルをファインチューニングする方法 などを試し ,コスト・精度ともに実用性の高いモデルの実現を目指す . |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we describe a practice of using natural language processing technology to extract place names from Japanese historical documents related to historical disasters in the early modern period. We created a dataset manually annotated with place names, evaluated the extraction accuracy of existing natural language processing systems available for place name extraction, GiNZA and ChatGPT (GPT -3.5, GPT -4), and analyzed error cases. The model for modern languages of GiNZA did not provide sufficient accuracy. On the other hand, the GPT -4 model gave promising results, but we confirmed that there were some cost issues. In the future, we will experiment with methods such as fine -tuning of pre -trained models, and aim to realize a model that is practical in terms of both cost and accuracy. |
書誌情報 |
じんもんこん2023論文集
巻 2023,
p. 19-24,
発行日 2023-12-02
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |