IBM V3500存儲更換控制器一例
今天一早接到客戶電話,說單位內部分用戶不能訪問網絡,我登錄檢查之后發現存儲的一個控制器損壞導致,主要原因概述如下。
當前客戶核心業務運行在vSphere虛擬化平臺,該單位有3臺HP服務器+1臺IBM 3524存儲,服務器與存儲之間采用SAS接口連接,其中2臺HP服務器使用SAS線連接到A控制器,另1臺HP服務器使用SAS線連接到B控制器,服務器與存儲之間無冗余連接。3臺HP服務器安裝ESXi 6.0配置成HA,所有虛擬機都保存在IBM 3524存儲中,當A控制器損壞之后,前2臺HP服務器丟失到存儲的連接導致部分虛擬機不能啟動,因為HA中損壞了2臺服務器,HA失效。知道原因之后,讓客戶將其中1臺HP服務器的SAS線連接到B控制器的空閑端口(當前IBM 3524有兩個控制器,每個控制器有2個SAS接口,所以B控制器當前有一個端口空閑),將這臺服務器重新啟動,此時會有2臺服務器可以正常工作,之后將業務虛擬機啟動,此時單位應用暫時恢復。
在業務恢復之后,因為當前的存儲已經過保,所以申請購買新的同型號的控制器,控制器到貨之后更換損壞的A控制器,在更換的過程中又發現Slot 8的磁盤即將失效,在更換控制器后同時替換了即將失效的磁盤,下面介紹一下主要的過程與步驟。
(1)進入IBM DS Storage Manager管理軟件,可以看到A控制器已經離線,同時有兩塊盤有黃色的五星符號,如圖1-1所示。
圖1-1 已經離線
【說明】當前示意圖中Slot 3與Slot 8都有黃色的五星符號,其中Slot 3里面有一塊磁盤,因為最初該盤位有點故障幫此盤位未分配到陳列中,故當前磁盤未分配未使用,但此磁盤是一塊可用的磁盤,可以將其從盤位取出,放到其他需要的位置;而Slot 8分配為Array-2邏輯磁盤,該磁盤有數據丟失的風險。
(2)在"Recovery Guru"的進一步檢查中,看到第8盤位的磁盤即將失效,有數據丟失的風險,如圖1-2所示。
圖1-2 slot 8磁盤
(3)將損壞的A控制器從存儲中拆下,更換上新購置的控制器。
(4)在存儲管理中,右擊A控制器,在彈出的快捷菜單中選擇"Advanced→ Place→ Online"將其置于在線狀態,如圖1-3所示。
圖1-3 將控制器置于在線
(5)控制器處于在線狀態,如圖1-4所示。
圖1-4 控制器在線
但控制器在線后,連接A控制器的服務器沒有發現LUN,近一步檢查發現A控制器的flash狀態不對,如圖1-5所示。
圖1-5 A控制器的flash狀態不對
估計控制器在快遞過來的過程中,可能有顛簸或其他原因導致控制器中的SD卡(是一個8GB的高速緩存卡)松動,或者有問題。將新安裝上的控制器設置為"離線狀態",打開控制器,將原來損壞的控制器的SD卡插到新購置的控制器中。
(6)右擊A控制器,在彈出的快捷菜單中選擇"Advanced→ Place→ Offline"將其置于離線狀態,如圖1-6所示。
圖1-6 將控制器置于離線狀態
(7)在彈出的"Confirm Place Offline"對話框中單擊"yes"按鈕確認,如圖1-7所示。
圖1-7 確認設置為離線
(8)當控制器A處于離線之后,拆下控制器,如圖1-8所示。然后換上原來損壞控制器的SD卡,重新插上控制器。
圖1-8 控制器處于離線狀態
(9)再次將控制器設置為在線狀態,此時看到SD卡狀態正常,如圖1-9所示。
圖1-9 控制器正常
此時連接到A控制器的服務器應該能發現存儲分配的LUN,如果不能發現LUN,則可以在"Storage & Copy Services",右擊LUN在彈出的快捷菜單中選擇"Change→ Ownership/Preferred Path"選擇"Controller in Slot A",如圖1-10所示。
圖1-10 更換LUN到A控制器
對于盤位8即將失效的磁盤,可以將其置于"Fail"然后用熱備磁盤代替,然后在盤位8換上新的磁盤即可,主要步驟如下。
(1)右擊Slot 8的磁盤在彈出的快捷菜單中選擇"Advanced→ Fail",如圖1-11所示。
圖1-11 將磁盤設置為失敗
(2)在彈出的"Confirm Fail Drive"對話框中輸入yes然后單擊"OK"按鈕,如圖1-12所示。
圖1-12 確認設置
(3)右擊Slot 6(這個盤位的磁盤是熱備磁盤),在彈出的快捷菜單中選擇"Hot Spare Converage",如圖1-13所示。
圖1-13 熱備磁盤轉換
(4)在彈出的"Hot Spare Drive Options"對話框中選擇"Automatically assign drives",然后單擊"OK"按鈕,如圖1-16所示。
圖1-16 自動分配驅動器
(5)在"Replace Drives"對話框中將顯示將Slot 8的失效的磁盤替換到Slot 6,如圖1-17所示。
圖1-17 替換驅動器
(6)返回到"Storage & Copy services"對話框,瀏覽LUN可以看到涉及到邏輯磁盤會重建,如圖1-18所示。當時的時間是10點02。
圖1-18 磁盤重建
(7)此時可以將盤位8的磁盤拆下,換上新的同容量的磁盤。等圖1-18重構完成之后,盤位8的磁盤會被替換回來,如圖1-19所示。此時盤位8的磁盤有個黃色的五星標志,而盤位6的有個紅色的十字標志。
圖1-19 替換磁盤
(8)在"Storage & Copy services"對話框瀏覽涉及到的LUN,可以看到狀態變為"Copyback Progress data unavailable",當前時間是22:23分,復制過程進行了大約60%,如圖1-20所示。因為在替換Slot 8的時間大約是上午10點,時間到現在大約過了12小時,以此計算,整個更換、替換磁盤所需要時間大約15小時。
圖1-20 復制過程
(9)第二天早晨7點33分檢查,復制進度已經完成,如圖1-21所示。
圖1-21 復制完成
(10)在"Hardware"選項卡中單擊Slot 8,可以看到當前磁盤已經分配到Array-2,原來Slot 6仍然變為熱備磁盤,如圖1-22所示。至此整個維護完成。
圖1-22 系統狀態正常
【本文為51CTO專欄作者“王春海”的原創稿件,轉載請注明出處】