@techreport{oai:ipsj.ixsq.nii.ac.jp:02002118, author = {奥,幸弘 and 山田,浩史}, issue = {7}, month = {May}, note = {ECC-uncorrectableメモリエラー(EMEs)はコンピュータのメモリで発生するエラーのうち,検出可能かつ自動的な訂正が不可能なエラーである.一般的なオペレーティングシステム(OS)では,EMEsが検出されると発生箇所のメモリにマッピングを持つプロセスを直ちに強制終了する.機械学習を行うアプリケーション(MLアプリ)はメモリを大量に使用して大規模かつ長期間に渡って実行されるためEMEsが発生しやすいと同時に,EMEsが発生するとメモリ上の学習データ等が失われるか,または実行が中断され大きな時間的損失が発生する.このようなMLアプリは多くがPython言語を用いて作成されインタプリタ上で実行されている.本研究では,Pythonアプリケーションに対してEMEsが発生した際の強制終了を防ぎ,メモリエラーを適切に修正して正常に継続実行させるための手法を提案する.EMEs発生時のメモリ上オブジェクトは殆どの部分で健全であることに着目し,EMEs発生箇所のみをピンポイントで修復することにより継続実行を実現する.本研究では提案手法をCPython 3.12.4上に実装し,研究の第一歩目として,リカバリハンドラを備えたChain Hash及びB+-Treeを作成した.これを実行して性能を評価した結果,提案手法は標準の実装と比較して1.5倍以下のメモリ使用,1.4倍以下の処理時間で動作し,EMEs発生後の継続実行が可能であった.}, title = {ECC-uncorrectableメモリエラーに耐性を有する機械学習フレームワーク}, year = {2025} }