メモリエラーの情報

Googleと日本HPの研究結果の抜粋です。
こういう具体的な情報を発信していただくことは非常に有用だと思います。両社は「さすが」と思います。



グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率 - CNET Japan

エラーの発生率

  • Googleのサーバ3台に1台ほどで、1年当たり1回の訂正可能なメモリエラーが発生
  • Googleのサーバ100台に1台で、1年当たり1回の訂正不可能なエラーが発生
  • メモリモジュールでは1つ当たり1年間で平均4000回近い訂正可能なエラーが発生
※「Googleのサーバ」と「メモリモジュール」の関係は不明。何か間違っている?
  • 最近1カ月以内に訂正可能なエラーが発生したメモリモジュールは、訂正不可能なメモリエラーの確率が場合によっては431倍になる

エラー率を上昇させる原因

  • Googleのデータセンターでの室温の違いはメモリエラーの発生率にほんの少ししか影響を与えなかった
  • システム利用率が高いとエラーの発生率が高くなる
  • システム利用率は温度と連動する傾向がある

「ハードエラー」と「ソフトエラー」

  • 「ハードエラー」は「ソフトエラー」より発生率が高い
  • ハードエラーはハードウェアにおける回復できない問題
  • ソフトエラーはランダムな宇宙線などの事象によって引き起こされる一時的な問題

新世代のメモリモジュール

  • DDR2などの新世代のメモリモジュールは、従来のものよりエラー率が高くない
  • 経年劣化は、訂正可能なエラーの発生率の増加という形で、使用開始後わずか10~18カ月で始まる


日本HP - HP-UX Developer Edge - 新しいHP Integrityサーバの魅力を探る・後編

ソフトエラーの発生率

  • メモリ集積度とともに発生確率も上昇
  • 1GBのメモリ(非ECC)を搭載したPCの場合、システムダウンの発生確率は1年で7~8割程度
  • 分厚い岩盤の中ではソフトエラーは発生しないせず
  • 高度3,000mでは10倍に増える

ハードエラー

  • ソフトエラーよりも大幅に低い
  • ゼロにすることはできない