VMware HA で 仮想マシンOS の障害を検出するというのはすなわち 仮想マシン内で動作している VMwareTools との通信ができるかどうかを検出するということ。VMwareTools の応答が無ければハートビート障害と見なしてリセットがかかる。
ハートビート障害という言葉からわかるように、定期的に生死確認をやっていて、何分以上応答が無ければ障害とする、という具合に設定しておく。この時間はHAのクラスタ全体で同じにもできるし、仮想ホストごとに個別に設定もできる。このような感じで設定する。
vCenter 上には、原因:VMwareTools のハートビート障害、と記録される。
リセットがかかると同時に、そのときの画面も記録しておいてくれる。いたれりつくせりである。
Linux で kernel panic が出たときはこんなの。
キャプチャがあるおかげでちょっとは障害原因を追いかけやすい。