管理員注意!問題在網絡、存儲和應用之間
原創【51CTO 6月29日外電頭條】編者按:和21世紀大多數工作崗位一樣,系統管理員的工作也趨于細分,不同的工種可能分別精通網絡、安全、存儲、以及單一的關鍵任務應用程序。然而對于企業和數據中心的運維和管理員而言,僅僅精通一個方面而對其他領域一竅不通的人才正感到日子越來越難過,而應用運維對底層架構的不了解,以及反過來,基礎架構團隊對應用程序的不了解,經常會造成解決問題時的效率低下。那么,管理員應該專精哪方面的技能,粗通哪方面的技能,以應對企業的需求?企業在物色IT部門人才的過程中又應該怎樣安排?本文通過企業中經常遇到的一種由性能問題造成的事件來說明,對底層、操作系統層和應用層都了解的運維人才——一位DBA式的人才——有多么重要。本文作者Matt Prigge是SymQuest Group咨詢公司的系統和網絡架構師,Infoworld測試中心的專欄編輯。以下為正文:
除了規模最小的IT部門外,所有IT部門都往往劃分各管理員所需的一套技能。畢竟,要聘請到高素質的網絡管理員、服務器管理員和存儲管理員本身夠難的了,更不用說要物色到面對多項IT任務時都表現得游刃有余的候選者。
作為一條組織原則,劃分“技能”確實可行:它不但明確了團隊不同成員之間的職責,還確保了數據中心基礎架構的每一個部分都得到應有的關注。
遺憾的是,技術卻在往一個完全不同的方向發展。數據中心的技術變得日益融合、虛擬化。正如我在之前指出的那樣,對存儲方面一竅不通的網絡管理員來說,日子越來越難過;對網絡方面一竅不通的存儲管理員來說,也是如此。
而且,這不是劃分技能的方法存在的***缺點。劃分技能的另一個副作用是,基礎架構團隊極少花心思去了解,從技術的角度來看,到底是什么讓應用程序順利運行。
在大多數IT部門,每個關鍵任務應用程序都有各自專門的管理員。然而,這些成天圍繞應用程序的管理員很少深入了解底層運行的基礎架構,在設計、實施和支持方面需要依賴基礎架構團隊。反過來,基礎架構團隊也一般不大關注應用程序,需要依賴軟件開發商才能弄清楚如何合理部署應用程序,以便該應用程序獲得所需要的資源。
這條應用程序交付鏈從最終用戶的工作站開始,經由網絡,到達應用程序堆棧和服務器,再一路到達存儲基礎架構;這條交付鏈有多可靠多健壯,完全取決于最薄弱的那個環節。最薄弱的那個環節十有八九出現在應用程序團隊與基礎架構團隊之間(要是沒有一位技能嫻熟的DBA,更是如此)。
真實教訓
要明白這個問題,不妨考慮本人多年來發現屢屢應驗的一種情況:
現在是星期一下午2點15分。用戶們開始反映某個關鍵任務應用程序遇到了嚴重的性能問題。除了性能不盡如人意外,應用程序管理員并沒有發現這個應用程序有什么問題,于是這個問題轉交給了基礎架構團隊。服務器管理員欣然加入進來,確定應用服務器在正常范圍內運行,但數據庫服務器出現了存儲延遲嚴重的問題。
隨后存儲管理員證實:與該數據庫服務器相連接的存儲區域網(SAN)卷的確容量即將告罄,但它們本身其實沒什么問題。到這時,問題已極其糟糕,好幾個管理層都注意到了這個問題,于是一群高級管理人員突然來到存儲管理員的辦公室,想看看到底是怎么回事。當然,正所謂“錘子在手,滿眼釘子”;于是那名存儲管理員提議添加更多的磁盤;或者恐慌之余,提議將數據庫卷升級到固態硬盤。
這種情況下,整條鏈上就是沒有人真正關注該應用程序在做什么,或者它為什么突然加大了磁盤負載。真正的問題,也是我親眼目睹的問題是,兩個頻繁存儲到數據庫的程序前后排得太密集了。只要其中一個程序的運行時間比應用程序開發商預計的長一點,兩者就相互重疊,導致數據庫卷面臨頻繁的輸入/輸出操作。這兩個程序一起完成所需的時間更長,進而與其他程序相互重疊,結果引發了雪球效應,最終導致了這個明顯的問題。
應用程序團隊對應用程序面向用戶的那部分非常熟悉,服務器管理員對操作系統和硬件很了解,但就是沒有人實際負責兩者之間脫節的那個極小部分。這種情況下,勢必會導致性能突然大幅降低(如本文中的這個問題)。管理員條件反射般地配置過多的基礎架構資源,試圖“解決”問題。
問題的反省
在當今“少花錢多辦事”的IT環境下,這種結局司空見慣。你可能會問,“DBA到底在哪里?”問得好!以前,許多公司設有一名DBA;但如今由于預算吃緊,加上新的應用程序大批涌入,這個人的職責轉變成了負責部署另一個新的應用程序。誰也沒想到“少花錢多辦事”的口號到頭來成了“多花錢少辦事”:那個新增存儲設備的成本原本可以用來支付知道沒有必要購買更多設備的某個人的薪水。
要避免這種問題,***的辦法就是確保應用程序支持鏈銜接無縫。在理想情況下,這意味著恢復DBA的職位;但在眼下這年頭,另外增加一名專職員工很少被看作是解決問題的法子。
所以到頭來,這個職責被轉移到存儲管理員、服務器管理員和網絡管理員的身上。他們完全需要自力更生,不斷充電,學習自己支持的應用程序的基本要點。畢竟,一旦哪里出了錯,受責備的往往是管理員。性能圖表上不會平白無故地出現性能驟降,它們往往與功能失常的硬件沒有多大的關系。連高層管理人員沒有注意的稍縱即逝的異常現象也值得仔細分析,以查明根源。這些異常可能是下星期一給你當頭一棒的問題體現出來的征兆。
原文:Calling all admins: Know thy applications
【51CTO.com譯文,轉載請注明原文作譯者和出處。】
【編輯推薦】