WEKO3
アイテム
重複したバグレポート検出のための機械学習モデルのファインチューニングにおけるロス計算手法および入力形式の比較評価
https://ipsj.ixsq.nii.ac.jp/records/227287
https://ipsj.ixsq.nii.ac.jp/records/2272870a839d9c-1978-477a-a543-7814b55ed672
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年8月16日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, SE:会員:¥0, DLIB:会員:¥0 |
Item type | Symposium(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-08-16 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 重複したバグレポート検出のための機械学習モデルのファインチューニングにおけるロス計算手法および入力形式の比較評価 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 機械学習 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
資源タイプ | conference paper | |||||||||||||
著者所属 | ||||||||||||||
早稲田大学 | ||||||||||||||
著者所属 | ||||||||||||||
早稲田大学 | ||||||||||||||
著者所属 | ||||||||||||||
早稲田大学 | ||||||||||||||
著者所属 | ||||||||||||||
早稲田大学 | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Waseda University | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Waseda University | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Waseda University | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Waseda University | ||||||||||||||
著者名 |
森, 俊介
× 森, 俊介
× 草開, 新太郎
× 鷲崎, 弘宜
× 深澤, 良彰
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | ソフトウェアに見つかったバグはバグレポートとして開発者へ報告されることがある.新たなバグレポートの内容が報告済みバグレポートと同じである場合,それは重複バグレポートと呼ばれる.重複バグレポートを新規バグレポートとして取り扱うことは開発者にとって労力となる.この問題解決のため,機械学習技術を用いてバグレポートの重複を検出する試みが為されている.その一部に,事前学習した訓練済みモデルを重複バグレポート検出用にファインチューニングする手法が提案されている.しかしファインチューニングする際の適切なロス計算手法や入力形式は不明であり改善の余地がある.本研究では重複バグレポート検出タスク用としてモデルをファインチューニングする際に用いるロス計算手法や入力形式を評価する.モデルとしては,事前学習した訓練済みの MPNet 及びプーリング層のみからなる簡潔なモデルを用いる.このモデルで個々のバグレポートをベクトル化し,ベクトル間の類似度を元に重複バグレポート検出タスクとしての性能を評価する.ファインチューニング及び評価は,BugzillaのFirefox プロダクトのバグレポートから作成したデータセットを用いて行った.ロス計算手法としては Cosine Similarity Loss, Triplet Loss, Multiple Negatives Ranking Loss の 3 つのロス計算手法を評価した.入力形式として「summary のみ」, 「description のみ」,「summary+” ”+description」, 「summary+”[SEP] ”+description」, 「summary+” [SEP] ”+separated description」の 5 つ入力形式を評価した.結果,ロス計算手法としては Multiple Negatives Ranking Loss が,入力形式としては「summary+” [SEP]”+description」が最も優れていることを明らかにした. | |||||||||||||
書誌情報 |
ソフトウェアエンジニアリングシンポジウム2023論文集 巻 2023, p. 102-110, 発行日 2023-08-16 |
|||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |