@techreport{oai:ipsj.ixsq.nii.ac.jp:00238500,
 author = {福島, 拓也 and 久田, 祥平 and 矢田, 竣太郎 and 若宮, 翔子 and 荒牧, 英治},
 issue = {7},
 month = {Aug},
 note = {近年，大規模言語モデル（LLM）の急速な発展に伴い，医療分野においてもその応用可能性が注目されている．しかし，医療データの機密性とプライバシー保護の必要性から，日本語における医療 LLM の評価環境は十分に整備されておらず，その性能や適用可能性を適切に判断することが困難である．本研究では，この課題に対処するため，日本語医療言語処理分野における複数のタスクから構成される LLM 評価ベンチマーク（JMED-LLM）を構築した．さらに，既存の代表的な LLM を対象として本ベンチマークによる評価を実施し，日本語医療タスクにおける現状の性能を明らかにした．本ベンチマークは継続的にタスクを拡充する予定であり，今後の日本語医療 LLM 開発の活性化に寄与することを期待する．},
 title = {日本語医療LLM評価ベンチマークの構築と性能分析},
 year = {2024}
}