こんにちは。
物理サーバ2台(A,B)にHyper-Vを導入し、WSFCクラスタ環境を構築しました。
その後、それぞれのサーバ上に仮想マシンを構築し、仮想マシン(C,D)同士で
クラスタ構成を実装しています。
ある日、突然仮想マシン一台(C)が起動しない障害が発生し、クラスタマネージャの役割メニューから確認すると
「失敗」となっておりました。まず該当仮想マシン(C)が起動している物理サーバ(A)を再起動することで
手動で仮想マシン(C)を起動することはできましたが、仮想マシン上で実装したクラスタにノード参加できず、
しばらくすると起動していた片方の仮想マシン(D)が失敗状態となり、停止していました。
物理サーバ(B)を再起動し、仮想マシン(D)を起動することができ、クラスタ参加の正常に復旧できましたが
原因究明までは至っていない状況です。
仮想マシンが停止/失敗状態になった際、物理サーバのシステムイベントログから
以下が表示されておりました。
・イベントID:5120
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:クラスターの共有ボリューム
・クラスターの共有ボリューム 'Volume1' ('Cluster Disk 1') は、'STATUS_CONNECTION_DISCONNECTED(c000020c)' が
原因で一時停止状態になりました。ボリュームへのパスが再確立されるまで、すべての I/O は一時的にキューに登録されます。
・イベントID:1069
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:リソース コントロール マネージャー
クラスター化された役割 'xxxxx004' の種類 'Virtual Machine' のクラスター リソース '仮想マシン xxxxx004' が失敗しました。
リソースおよび役割のエラー ポリシーに基づいて、このノードでリソースをオンラインにする処理または
グループをクラスターの別のノードに移動した後に再起動する処理がクラスター サービスによって試行される場合があります。
フェールオーバー クラスター マネージャーまたは Get-ClusterResource Windows PowerShell コマンドレットを
使用して、リソースおよびグループの状態を確認してください。
・イベントID:5142
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:クラスターの共有ボリューム
エラー '(1460)' が発生したため、クラスターの共有ボリューム 'Volume3' ('Cluster Disk 3') に
このクラスター ノードからアクセスできなくなりました。
このノードから記憶装置への接続およびネットワーク接続のトラブルシューティングを行ってください。
しかし、5120については現在も引き続き出力されております。
上記の事象について、ご存知の方いらっしゃいましたら
ご教示頂けますでしょうか。
以上です。宜しくお願い致します。
※サーバ構成
OS:Windows Server 2016 Standard
サーバ:HP DL360 Gen9*2台
ストレージ:HP MSA 2040 SAS
物理サーバ2台(A,B)にHyper-Vを導入し、WSFCクラスタ環境を構築しました。
その後、それぞれのサーバ上に仮想マシンを構築し、仮想マシン(C,D)同士で
クラスタ構成を実装しています。
ある日、突然仮想マシン一台(C)が起動しない障害が発生し、クラスタマネージャの役割メニューから確認すると
「失敗」となっておりました。まず該当仮想マシン(C)が起動している物理サーバ(A)を再起動することで
手動で仮想マシン(C)を起動することはできましたが、仮想マシン上で実装したクラスタにノード参加できず、
しばらくすると起動していた片方の仮想マシン(D)が失敗状態となり、停止していました。
物理サーバ(B)を再起動し、仮想マシン(D)を起動することができ、クラスタ参加の正常に復旧できましたが
原因究明までは至っていない状況です。
仮想マシンが停止/失敗状態になった際、物理サーバのシステムイベントログから
以下が表示されておりました。
・イベントID:5120
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:クラスターの共有ボリューム
・クラスターの共有ボリューム 'Volume1' ('Cluster Disk 1') は、'STATUS_CONNECTION_DISCONNECTED(c000020c)' が
原因で一時停止状態になりました。ボリュームへのパスが再確立されるまで、すべての I/O は一時的にキューに登録されます。
・イベントID:1069
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:リソース コントロール マネージャー
クラスター化された役割 'xxxxx004' の種類 'Virtual Machine' のクラスター リソース '仮想マシン xxxxx004' が失敗しました。
リソースおよび役割のエラー ポリシーに基づいて、このノードでリソースをオンラインにする処理または
グループをクラスターの別のノードに移動した後に再起動する処理がクラスター サービスによって試行される場合があります。
フェールオーバー クラスター マネージャーまたは Get-ClusterResource Windows PowerShell コマンドレットを
使用して、リソースおよびグループの状態を確認してください。
・イベントID:5142
・ソース:Microsoft-Windows-FailoverClustering
・タスクのカテゴリ:クラスターの共有ボリューム
エラー '(1460)' が発生したため、クラスターの共有ボリューム 'Volume3' ('Cluster Disk 3') に
このクラスター ノードからアクセスできなくなりました。
このノードから記憶装置への接続およびネットワーク接続のトラブルシューティングを行ってください。
しかし、5120については現在も引き続き出力されております。
上記の事象について、ご存知の方いらっしゃいましたら
ご教示頂けますでしょうか。
以上です。宜しくお願い致します。
※サーバ構成
OS:Windows Server 2016 Standard
サーバ:HP DL360 Gen9*2台
ストレージ:HP MSA 2040 SAS