@techreport{oai:ipsj.ixsq.nii.ac.jp:02000824,
 author = {畑山,大地 and 山田,浩史},
 issue = {18},
 month = {Feb},
 note = {ECCメモリが修復できないエラーであるECC-uncorrectableメモリエラー(EMEs)はシステムクラッシュの主要な要因であることが多くの研究で明らかになっている.OSカーネルがEMEsに遭遇すると,データ保護のためにfail-stopするように設計されていることから,動作中のアプリケーション(App)も異常終了してしまう.正常終了を行えないことから,メモリ上の未同期な更新データの損失を招く.また,データの更新中にfail-stopした場合は,部分的に永続化されることでデータが破損してしまう.最悪の場合は,ストレージ全体に影響が及び,ストレージ内の全てのデータを損失する可能性がある.さらに,再起動後のAppは障害発生前の状態に戻る必要があるため,リカバリ処理に伴うダウンタイムが発生する.本研究では,EMEsが引き起こすOSカーネルのfail-stopがAppに及ぼす悪影響を軽減するカーネルレベルの機構であるCraneを提案する.EMEsを検知した際に,OSカーネルをfail-stopさせずに,Appに正常終了を強制する.これにより,メモリ上の未同期な更新データの損失や部分永続化を回避できる.また,再起動後のAppではデータの整合性が保証されることでリカバリ処理が軽減されるため,ダウンタイムが短くなる.このCraneを,OSカーネルのデータ操作を司るStorage I/O LayerをEMEsから保護することで実現する.CraneをLinuxカーネルに実装し,評価実験を行った.Craneは性能劣化を防ぎつつEMEsへの耐性を示した.また,Appの更新データの永続化やダウンタイムの短縮を確認した.},
 title = {ECC-uncorrectableメモリエラーに耐性を有するStorage I/O Layer},
 year = {2025}
}