@techreport{oai:ipsj.ixsq.nii.ac.jp:00233064,
 author = {中西, 奏人 and 穐山, 空道 and Kanato, Nakanishi and Soramichi, Akiyama},
 issue = {44},
 month = {Mar},
 note = {キャッシュタイミング攻撃は,マイクロプロセッサのキャッシュメモリのタイミング情報を悪用することにより,システムのセキュリティを脅かす攻撃であり,大きな脅威だと考えられている.既存の研究では,この攻撃に効果的に対抗するために,強化学習を用いた自動探索ツールである AutoCAT [1] が開発された.しかし,AutoCAT の探索プロセスにはキャッシュ状態に変化を与えない無駄な操作が平均して約 19.10% 存在することがわかった.そこで AutoCAT の訓練プロセス中に無駄な操作が行われた際には負の報酬を与えることを提案する.提案手法により,無駄な操作の割合は平均して約 15.56% に低下し,約 3.54 ポイントの改善が見られた., Cache-timing attacks exploit timing measurements on cache accesses to maliciously retrieve secret information and is becoming an urgent threat to system security. AutoCAT [1] leverages reinforcement learning (RL) to assess if a given cache structure is vulnerable to cache-timing attacks. In this paper, we first show that 19.10% in average of the actions taken by AutoCAT are “useless”, meaning that they do not change the cache states. We then propose to give negative rewards when useless actions are taken so that they are avoided in the learning process. Our method reduces the useless actions to 15.56% in average.},
 title = {キャッシュ構造脆弱性の強化学習による探索における無駄な操作の削減},
 year = {2024}
}