@inproceedings{oai:ipsj.ixsq.nii.ac.jp:02005947, author = {武田,一希 and 山田,浩史}, book = {コンピュータシステム・シンポジウム論文集}, month = {Nov}, note = {ECC-uncorrectableメモリエラー(EMEs)はError Correcting Code (ECC)機能で検知できても訂正できないメモリエラーであり,オペレーティングシステム(OS)カーネルに対して壊滅的な影響を及ぼす.OSカーネル内のメモリ領域においてEMEsが発生・検知された場合,OSカーネル上で稼働しているすべてのアプリケーションを含めて強制終了するため,システム全体の信頼性や可用性が著しく損なわれる.OSカーネルのメモリオブジェクトの中でも,ページテーブルはEMEsに対して特に脆弱である.これはインメモリ処理アプリケーションの普及やページテーブル階層の深化,NUMAマシンにおける性能向上手法などによるページテーブル自身のメモリフットプリントの増加が影響しているためである.本研究では,EMEsに頑健なページテーブル管理機構PT-surgeryを提案する.PT-surgeryはEMEsにより損傷したページテーブルを切り離し,同一な内容を持つページテーブルを再生成することで,OSカーネルおよびアプリケーションの継続動作を可能にする.本手法はEMEsが発生したページテーブル以外の大部分のメモリ領域が健全であるという特性に着目している.Linux 6.1.35上に実装したPT-surgeryのプロトタイプによる実験の結果,1.9%未満のランタイムオーバヘッドで,損傷したほぼすべてのページテーブルを復元できることを確認した.}, pages = {33--48}, publisher = {情報処理学会}, title = {ECC-uncorrectableメモリエラーに頑健なページテーブル管理機構}, volume = {2025}, year = {2025} }