VMware HA で 仮想マシンOS 障害のときのリセットの様子

VMware HA で 仮想マシンOS の障害を検出するというのはすなわち 仮想マシン内で動作している VMwareTools との通信ができるかどうかを検出するということ。VMwareTools の応答が無ければハートビート障害と見なしてリセットがかかる。

ハートビート障害という言葉からわかるように、定期的に生死確認をやっていて、何分以上応答が無ければ障害とする、という具合に設定しておく。この時間はHAのクラスタ全体で同じにもできるし、仮想ホストごとに個別に設定もできる。このような感じで設定する。

vCenter 上には、原因:VMwareTools のハートビート障害、と記録される。

リセットがかかると同時に、そのときの画面も記録しておいてくれる。いたれりつくせりである。

Linux で kernel panic が出たときはこんなの。

WindowsBSOD が出たときはこんなの。

キャプチャがあるおかげでちょっとは障害原因を追いかけやすい。