SSD故障的4個(gè)原因以及處理方法
與硬盤驅(qū)動(dòng)器相比,SSD更加可靠;然而,并沒有完美的存儲(chǔ)技術(shù)。即使是最新的NVMe SSD,也可能會(huì)突然或逐漸出現(xiàn)故障。
你知道如何判斷SSD即將發(fā)生故障嗎?以及你知道如何對(duì)出現(xiàn)故障的SSD進(jìn)行故障排除嗎?如果你知道答案,你也許可以實(shí)現(xiàn)無故障恢復(fù),而不是永久性數(shù)據(jù)丟失。與任何存儲(chǔ)設(shè)備一樣,NVMe SSD最終將出現(xiàn)故障,唯一的變量是何時(shí)。與硬盤驅(qū)動(dòng)器不同,SSD無法發(fā)出聲音警告,提醒你可能有問題。但是,即使SSD可能已損壞,但不一定會(huì)丟失全部數(shù)據(jù)。
下面介紹了SSD故障的四個(gè)主要原因,以及如何解決這些問題。
1. 熱 NVMe
SSD雖然是新興產(chǎn)品,但最困擾它們的問題卻是計(jì)算領(lǐng)域最古老的問題之一:熱。 IT管理軟件和監(jiān)視工具提供商SolarWinds的極客Leon Adato表示:“NVMe SSD運(yùn)行時(shí)可能會(huì)非常熱,特別是如果你正在執(zhí)行高級(jí)計(jì)算等密集操作時(shí)。即使在常規(guī)操作下,NVMe [SSD]也會(huì)產(chǎn)生很高溫度,而引發(fā)問題。”
為了確保SSD不會(huì)過熱,需要提供足夠的冷卻,從而防止其發(fā)生故障或節(jié)流到較低的速度。這里挑戰(zhàn)在于尋找方法從驅(qū)動(dòng)器中散熱,目前有多種解決方法。Adato說:“你可以使用大型機(jī)箱,在其中確保大量直接外部氣流,或者你可以安裝散熱器、風(fēng)扇或液體冷卻系統(tǒng)。”
調(diào)整室溫到較低的溫度也可以有效解決與SSD熱量相關(guān)的問題。Adato說:“無論你采用哪種方法,其想法都是要采取措施來增加冷卻和/或降低系統(tǒng)機(jī)箱內(nèi)部的環(huán)境溫度。”
2. 固件故障
SSD固件極其復(fù)雜,很多SSD故障往往只是極端情況-僅在正常運(yùn)行參數(shù)范圍之外才會(huì)出現(xiàn)此問題。幸運(yùn)的是,當(dāng)出現(xiàn)嚴(yán)重的固件問題時(shí),大多數(shù)SSD會(huì)自動(dòng)進(jìn)入故障保護(hù)模式。 英特爾高級(jí)戰(zhàn)略規(guī)劃師兼產(chǎn)品經(jīng)理兼NVM Express(負(fù)責(zé)開發(fā)NVMe規(guī)范的組織)的工作組聯(lián)合主席Jonmichael Hands說:“如果SSD無法保證數(shù)據(jù)的完整性,那么通常供應(yīng)商會(huì)部署‘斷言(assert)’或其他故障模式,使名稱空間脫機(jī)或置于只讀模式,以保護(hù)主機(jī)軟件免于讀取不良數(shù)據(jù)。”
固件問題時(shí)有發(fā)生。例如,去年11月,惠普企業(yè)發(fā)布客戶公告警告稱,其SSD固件版本HPD8需要緊急修復(fù)。那些沒有安裝此修復(fù)程序的企業(yè)將在32,768小時(shí)的運(yùn)行時(shí)間后看到其驅(qū)動(dòng)器發(fā)生故障。這意味著,恰好在3年270天零8個(gè)小時(shí)后,存儲(chǔ)在驅(qū)動(dòng)器上的所有數(shù)據(jù)都將丟失。
3. 誤用
SSD濫用最常見的形式是驅(qū)動(dòng)器過早磨損,因?yàn)樗c數(shù)據(jù)中心的工作負(fù)載不匹配。Hands說:“例如,具有較低耐久性的四級(jí)單元驅(qū)動(dòng)器主要用于橫向擴(kuò)展存儲(chǔ)或?qū)ο蟠鎯?chǔ),而不能用作具有大量隨機(jī)寫入的高速緩存驅(qū)動(dòng)器。”
幸運(yùn)的是,企業(yè)可以準(zhǔn)確地預(yù)測(cè)和建模耐用性,因此很容易提前計(jì)劃以緩解SSD故障。 Hands說:“你需要知道你的SSD支持什么DWPD(每天寫入的驅(qū)動(dòng)器)和TBW(寫入的兆字節(jié))。對(duì)你的工作量進(jìn)行建模,并確定哪種SSD最好。”為了預(yù)測(cè)驅(qū)動(dòng)器的失效日期,你也可以使用有用的工具,例如英特爾的SSD耐用估算器。
4. 潛在問題
SSD問題通常并不明顯,直到開始造成大問題。越早知道存在問題,你就可以越快地響應(yīng)情況,并最大程度地減少影響。Adato說:“請(qǐng)確保使用硬件監(jiān)視軟件來跟蹤…組件的I / O速度、壞塊和其他故障模式,以便在出現(xiàn)問題時(shí)盡快知道。”
Adato指出,創(chuàng)建商業(yè)環(huán)境也很重要,在該商業(yè)環(huán)境中,最終用戶可以輕松地報(bào)告運(yùn)行不佳、欠佳或異常的基于SSD的系統(tǒng)。他說:“IT部門需要迅速了解故障,并快速解決故障,這遠(yuǎn)比追責(zé)重要得多。”
對(duì)于SSD故障時(shí),快速解決問題是防止過多損壞的關(guān)鍵。Adato說:“你所希望的最好的結(jié)果是失去對(duì)該驅(qū)動(dòng)器進(jìn)行寫入的能力,但保留對(duì)其進(jìn)行讀取的能力。這樣,你可以在丟棄設(shè)備前將所有數(shù)據(jù)拉到另一個(gè)驅(qū)動(dòng)器。”