@techreport{oai:ipsj.ixsq.nii.ac.jp:00238500,
 author = {福島, 拓也 and 久田, 祥平 and 矢田, 竣太郎 and 若宮, 翔子 and 荒牧, 英治},
 issue = {7},
 month = {Aug},
 note = {近年,大規模言語モデル(LLM)の急速な発展に伴い,医療分野においてもその応用可能性が注目されている.しかし,医療データの機密性とプライバシー保護の必要性から,日本語における医療 LLM の評価環境は十分に整備されておらず,その性能や適用可能性を適切に判断することが困難である.本研究では,この課題に対処するため,日本語医療言語処理分野における複数のタスクから構成される LLM 評価ベンチマーク(JMED-LLM)を構築した.さらに,既存の代表的な LLM を対象として本ベンチマークによる評価を実施し,日本語医療タスクにおける現状の性能を明らかにした.本ベンチマークは継続的にタスクを拡充する予定であり,今後の日本語医療 LLM 開発の活性化に寄与することを期待する.},
 title = {日本語医療LLM評価ベンチマークの構築と性能分析},
 year = {2024}
}