盤子做大后的“尷尬”
了解更多數字化轉型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
臨近年底
各路人馬磨刀霍霍
誓為報表美化
花盡最后一絲力氣
偏偏這個節骨眼
突如其來一個變數
讓基礎架構部門主任王力
原本堪稱美好的2019年
差點垮掉
上午9點7分,給集團IT領導們做線上匯報時,王力聲音都是顫抖的。
“新收購的第三分廠數據已于前日完成導入,但有財務、監察等部門反映,近兩日報表數據獲取緩慢,有時會出現客戶端卡住、報錯、死機等情況,嚴重影響銷售系統正常運行……”
有B廠、C廠、D廠、E廠完美匯報在前,王力心里越發突突,集團領導該咋想他們A廠啊,另外解決不了這個問題,不僅年終獎得縮水,只怕來年升職考核也沒法過關啊。
盤子做大后的“尷尬”
“找到原因了嗎?”IT部長Ivana率先發問。
“我們看了銷售系統的運行日志和服務器數據庫,監測兩小時后發現一些查詢語句運行的時候出現了死鎖。”“聯系軟件廠商了嗎?”“軟件廠商下午過來,查看軟件及其數據庫的運行情況。”“好,請抓緊處理,有情況隨時匯報!”遠程會議結束后,王力輕輕抹了一把汗,先聯系軟件廠商工程師籌劃下午的檢測事宜,接下里又開了兩場大會。這年頭,沒有什么問題是開會解決不了的,一場不夠,那就再開兩場。
會議一會議名稱:
關于導入第三工廠數據致使銷售系統死鎖原因探討
時間:
2019年12月3日16:30
地址:
基礎架構部門經理Deven辦公室
參與者:
Deven、王力、軟件廠商工程師
會議內容:
會議上Deven聽取了軟件廠商在13點至16點對軟件運行開展的檢測分析報告,了解到頻繁出現的死鎖情況是數據庫的數據查詢造成的,與前幾日大量導入數據有關。
經工程師對數據庫存儲的監測,磁盤活動時間經常達到100%,存儲IO效能不足是本次銷售系統無法正常運行的主要原因。
會議二會議名稱:
關于解決存儲IO性能不足問題的解決方案探討
時間:
2019年12月3日17:10
地址:
第一工廠辦公大樓4樓會議室
參與者:
Deven、王力、DBA Mario
會議內容:
在用存儲4年間擴容5次,隨著數據量增長使用該系統的部門和人數也大量增加,Kevin建議換臺存儲。
DBA Mario認為,更換一臺效能更好的存儲并不能從根本上解決問題。卡頓是銷售系統一直存在的問題,如今只是因為數據量劇增就出現死機,將來等更多業務、部門接入數據庫時,數據量級從未有過,僅僅換一臺高性能的存儲遠遠不夠,建議從硬件和軟件架構著手解決。
晚上8點17會議結束時,上級Deven微笑著拍拍王力的肩膀:“老王啊,硬件改造項目你來跟進吧,今天不用加班了,明早把方案給我就行。”
關鍵時刻,還是老同學靠譜
走在公司樓下,迎著寒冷的風,王力暈騰騰地對著車水馬龍發呆,幾分鐘后,他眼前隱隱浮現出老同學張燁的臉龐,張燁在戴爾易安信擔任技術顧問多年,架構的事找他問問吧。
當晚8點半,王力在電腦微信上同張燁開始了今天的第四場會議。簡單寒暄后,兩人進入正題。張燁:“我大概了解了。你們銷售系統性能的關鍵在兩個地方:一是軟件對外服務部分工作負載沒有分離,數據庫中讀寫相互影響。這在工作負載不高的時候沒什么問題,但是工作負載一大就將會給服務端造成巨大負擔,大量查詢的時影響寫性能,寫入時又鎖定數據行又延緩讀取,從而形成死鎖。第二是硬件部分,你們這個系統的硬件架構單一、負載集中,不僅有安全風險,而且很容易達到性能瓶頸。用戶需求無窮盡,則服務端負載壓力無窮盡,單一的服務端結構又怎么能以無盡的資源滿足無盡的需求呢?”
“那你看怎么改進呢?”“三步走。第一,將數據庫的讀取和寫入業務進行分離;第二,對于讀寫較重的服務,配置更多機器進行分擔;第三,尋找合適的可按需擴展的基礎架構,以滿足不斷增長的業務需求。”“好,我知道了。”王力一邊說一邊在文檔里敲下關鍵內容。“另外,還要找可以進行相互間數據復制的存儲,異步同步都行,盡可能是同步。當然了,這取決于你們的預算。針對你說的問題,方案就是在查詢和寫入方面配置多臺服務器,再配以合適的存儲,讓存儲間相互抄寫,同步數據、分擔負載,這樣無論后期是查詢的服務對象變多,還是寫入的工作負擔變大,你們都可以按需擴展。”張燁喝口水慢慢說道。
“所以,你有推薦的存儲嗎?”
“當然,也不看看我們戴爾易安信是干啥的!咱約下時間,到時候我給你們講下具體落地方案。”
這個落地方案,穩了!
3天后。王力協同戴爾易安信技術顧問張燁、軟件廠商到大樓會議室向IT部長Ivana做遠程匯報。“可以看到,在這個架構中,主、副區作為核心區域,包括主存儲、副存儲、主數據庫、副數據庫,以及對外提供銷售系統數據讀寫的服務器,服務器集群與數據庫組成SAN網絡進行通訊,可以不受外部網絡的影響。”張燁指著大屏幕,洪亮的聲音傳遍會議室。
➤“首先是存儲部分,我們的主存儲與副存儲保留有完全相同的數據副本,這主要得益于戴爾易安信SC存儲的LiveVolume技術——分別位于兩個存儲上的主副數據庫均可對外提供業務服務,主副存儲所連接的區域共同運作同一系統,單塊區域的任何故障都不會影響業務的持續運行。”
➤“其次,存儲區域外是我們的服務器集群,8臺服務器連接到2臺負載均衡設備,后者將會依據其內算法對請求進行分配,將原先由2臺服務器承擔的工作分配給8臺服務器來完成。同時,負載均衡設備會監控鏈路狀態,如果8臺服務器中的任何一臺服務器或其鏈路出現故障,負載均衡設備會將業務請求交付給其他正常鏈路的服務器。”
➤“最后,在核心區域外,我們還設計了第三塊區域。大家請看左側,這塊區域我們配置了4臺服務器和1臺存儲,同樣是戴爾易安信SC存儲,位于第二區的副存儲會將數據異步復制到第三區域的存儲上,該存儲將會保留除主副數據庫外的第三個數據庫副本,配合前端服務器上安裝的程序對外提供銷售數據的只讀服務及數據報表接口。”
“第三區域存儲的數據計劃多久同步一次?”Ivana問道。
“每日凌晨1點開始同步。”張燁回答道。
“我有個疑問。”Ivana看著架構圖,“據我所知,像你們架構圖里的存儲雙活結構,一般是需要特別設備或者網關進行,這是忘記畫上去了嗎?”
“您也注意到了這一點。不過這并不是我們忘了,而是戴爾易安信SC存儲的LiveVolume技術無需額外設備或網關即可實現雙活。”張燁把目光投向王力,兩人相視一笑。
“哦?SC存儲可以實現無網關雙活?”
“是的,Ivana。此外,SC存儲還能用不同型號實現雙活,如若單個存儲效能不足,我們可以在集群中添加更多SC存儲,構成聯邦在線遷移,使用效能更好的SC存儲承擔業務負載。”
“這樣啊……”線上的Ivana托起下巴,“真不錯啊,SC存儲。這個架構我看行,你們探討一下,定個時間跟軟件廠商開發人員一起測試吧。”
“好的!”
一個半小時的匯報結束后,王力與張燁走在第一分廠的林蔭小道上。
“方案基本已經確定,測試沒有問題后我們就會采購了。真希望通過這個采購項目,戴爾易安信也能參與到我們的日常運維中來,這樣我們才不會犯下之前的錯誤,直到效能不足時候出問題的時候才想起來進行系統改進。”王力看著張燁一臉誠懇。
張燁聽完笑了笑:“老弟啊,要真有這個顧慮,建議采購時加上我們的優化服務,這服務能提供一年一次的上門巡檢和無數次的遠程巡檢,主動監測存儲狀態、進行存儲配置優化、定期給出存儲分析報告,出現效能問題或設備故障時會電話或郵件告知風險,相當于協助你們管理這些存儲,你們運維也能省不少心。”
“這敢情好啊!咱得好好聊聊!”夕陽下,王力滿臉寫著高興,連日來的烏云終于一掃而光了。
相關閱讀推薦:拼車可以創造出“偶遇”來嘛?