スケーラブル管理機能
CRMS(Cray RAS and Management System)はハードウェアコンポーネントとソフトウェアコンポーネントを統合し、システム監視機能と障害識別・復旧機能を提供します。専用コントロールプロセッサと監視ネットワークを持つ独立したシステムであるCRMSは、Cray XT3システムのすべての主要ハードウェアコンポーネントとソフトウェアコンポーネントを監視して管理します。CRMSは、ハードウェアまたはソフトウェア
の障害発生時に復旧サービスを提供するほか、パワーアップ、パワーダウンとブートシーケンスをコントロールし、相互接続を管理し、マシンの状態を表示してシステム管理者に知らせます。
CRMSは、専用プロセッサと監視ネットワークを持つ独立したシステムです。CRMSが提供するサービスは、実行中のアプリケーションのリソースを利用しません。コンポーネントの障害が発生しても、CRMSが障害識別・復旧サービスの提供を続け、システムの正常に機能する部分の動作継続を可能にします。
Cray XT3システムは、すぐれた信頼性を実現するために設計されています。また、重要コンポーネントの冗長性が組み込まれ、単一障害点が最小化されています。たとえば、I/O PEの機能が停止しても、このPEを利用していたジョブが失われることはありません。
Cray SeaStarチップが停止しても、このプロセッサを経由してルーティングしたジョブを回復して継続できます。
システムボードには可動部品が全くないため、全体的な信頼性がさらに向上しています。
Cray XT3プロセッサとI/Oボードには、可能な限りソケット式コンポーネントを使っています。SeaStarチップ、RASプロセッサモジュール、DIMM、VRM(電圧レギュレータモジュール)とOpteronプロセッサは、いずれもその場で交換およびアップグレードできます。Cray XT3システムのバックプレーンはモジュールのホットスワッピングに対応するよう設計されているため、システムをシャットダウンせずに故障したコンポーネントを交換し、システムの可用性を向上させることができます。全コンポーネントが冗長電源を備え、すべてのシステムブレードに冗長VRMが装備されています。