極端環境下的系統部署——為好奇號進行系統升級
譯文【51CTO精選譯文】美國宇航局正在著手準備為好奇號火星探測器進行系統升級。系統升級工作大家都知道,沒啥技術含量——不過好奇號有點特殊。就在不久之前它剛剛成功登陸火星,因此傳統的DVD或者USB啟動盤之類升級方案顯然無法奏效。而且出于成本考慮,找家快遞公司把系統盤帶過去的想法也被嚴謹的科學人員否決了。
面對一系列難題,我開始不禁設想美國宇航局的專家們會如何就此展開討論:
“還有三個月好奇號探測器就要發射了,系統工作狀態怎么樣?”
“挺好,沒啥大問題。雖然版本和功能有點落后,但應該能解決。”
“有點落后?什么意思?”
“別緊張,只不過是驅動程序有點小毛病。”
“哪些驅動有問題?”
“沒多少,就是輪胎控制不太好使……激光發射裝置也有故障。最關鍵的攝像機還是運轉良好的,雖然目前只有黑白圖像,但已經不錯了。”
“好吧……你確定發射的時候一切都能恢復正常?”
“當然,放心吧,其實我們已經考慮過了,發射之后再給系統打補丁也是可行的。”
“打補丁?”
“對,就像給PC機升級一樣,方便快捷。”
“你確定一切會進展順利吧?”
“確定,咱們搞技術的經常做系統升級,老簡單了。”
“但到時候這東西可就上火星了,你知道吧?這跟升級PC機能一樣嗎?”
“我知道,火星嘛,紅的圓的那個。沒事,我們已經準備了很好的方案構思。”
“說說看。”
“你說這東西要花多久才能上火星?”
“253天。”
“啊!那就沒事了。有兩百多天,我們可以慢慢完善遠程升級模塊。不怕跟你交個底,最壞的情況也不過是這東西需要重啟、而且有那么幾天不能正常工作。”
好奇號成功于火星著陸時,我一直在收看由美國宇航局放出的直播影像,對高科技的贊嘆以及自豪的情感給我帶來很大沖擊。技術人員為這次偉大計劃所做出的不懈努力令我深深著迷。對于這樣一個龐大的項目,任何一丁點偏差都會令巨額投入功虧一簣,它的成功也因此變得更加值得景仰。美國宇航局甚至專門制作了一部名為“恐怖七分鐘”的短片,詳細描述了此次太空探索活動所遭遇過的病毒侵襲。當好奇號終于踏上火星的瞬間,相信每位觀眾都在興奮之余感到一絲寬慰。
“能用就行”的觀念令人后怕
“能用就行”不是挺好嗎?答案恰恰相反,一切未經嚴格審核的妥協都會給計劃帶來大量威脅與變數。好奇號探測器不僅是一臺單純的設備,它代表著人類無數科技結晶的綜合體,而成功登陸則是各項技術完美契合的證明。但隨后的消息卻令人錯愕——美國宇航局宣布其網站由于負載過重而陷入癱瘓。
這著實令我大吃一驚。我剛剛以觀眾的身份見證了人類歷史發展中的又一里程碑式事件,創新、工程與技術的最高成就在此刻融為一體——然而小小的網站處理能力問題卻難倒了這群技術天才。我們似乎有種習慣,就是在實現龐大規劃的同時不可避免地犯下一些低級失誤。只要與日常工作關系不大,這些環節就總會在關鍵時刻掉鏈子——就拿這次來說吧,美國宇航局為好奇號項目投入了25億美元的巨額預算,而官方網站居然會在直播時癱瘓了!
剛開始,好奇號火星探測器與地球之間的數據傳輸能力僅為5Mb,目前則已經擴展到40Mb——等到火星端主天線設置完畢后,帶寬還將進一步提升。還沒布置好主天線就有40Mb的帶寬,這已經比我們地球這邊的大部分普通網站更強力了,因此操作系統部署工作應該很容易才對。不過事情真是這樣嗎?
對于好奇號而言,整個OS升級過程要如何實現?事情會完全按照預定步驟順利完成,還是遭遇一系列突發情況?就算是在地球上,要將手頭的計算機系統從WindowsXP升級到Windows7都是件麻煩事,換在火星上真能一次搞定?宇航局官網事件令我們心存疑問。接下來就是我個人最難理解的問題:一定要把設備放出去再升級系統嗎?難道在地球上升級系統比遙控火星上的設備還費勁?
在地球上進行操作系統部署比在火星上還難?
在發射之前,好奇號火星探測器無需在不允許停機的前提下進行系統部署,可以說升級活動雖然是項目中的關鍵環節,但卻不會對既定任務造成影響,完全可以當作一項普通流程對待。除此之外,在地球上進行升級還可以大大降低項目開支。由于遠程升級會帶來諸多人力、時間及精力的額外投入,隨之而來的部署成本也將呈直線上升趨勢。根據項目規劃,系統遷移工作需要涉及大量關鍵數據,同時要保證不能造成業務中斷以及應用程序與信息丟失。這絕對是種費力不討好的方案,真不知道美國宇航局是怎么想的。
在地球上進行系統部署顯然要比在火星上容易得多
與美國宇航局的判斷不同,我們一向會把系統升級工作提前做好。事實上,為身邊的設備進行系統升級對于每位技術人員都不是難事。我們非常了解系統部署工作與基礎設施中的難題,所以我們會使用像Nomad2012這樣集成了微軟SystemCenter配置管理工具(簡稱SCCM)的軟件,以完成自動的形式完成高度優化且流程快捷的電腦系統遷移工作。在過去一個月中,我們已經靠這套方案成功實現了近四萬臺計算機的Windows7系統升級任務。
這才是處理任務的正常方式。
這才是系統部署的最佳方案。
不必中斷正常工作,應用程序及用戶數據都會正確保存在升級后的新系統中。
整個系統部署過程比遙控火星端容易得多,Nomad與SCCM會以自動化方式完成任務。
為什么要使用Nomad2012?
Nomad2012如何控制我們的SCCM帶寬管理?
Nomad2012是一款純軟件式解決方案,能夠以動態方式管理IT業務中涉及的帶寬資源,保證當業務流量與IT流量相沖突時,系統能夠優先處理業務類數據信息。ReverseQos™正是令Nomad2012擁有這項能力的核心因素。
利用Nomad對SCCM中的分支設計及SCCM帶寬管理加以規劃,我們將不必再為將哪站點設為區域核心而浪費腦細胞。與微軟SSCMWAN那充滿局限性的帶寬管理機制相比,與Nomad完整整合的分支設計功能使我們能在不添加任何額外SCCM分支設計限制的前提下定位應用程序及軟件包。由于Nomad2012的設計初衷在于增強SystemCenter功能而非與之競爭,因此將其引入SCCM分支設計完全不會帶來任何風險。
在評估Nomad2012及其它類似的SCCM分支設計客戶管理系統時,許多企業都會針對自身運行環境提出一系列處理原則。
在不造成單點故障的前提下,它們能減少多少服務器使用量?Nomad通過微軟配置管理器所減少的服務器基礎設施數量遠遠超過市場上的同類產品。大家完全不用擔心“該不該部署它”或者“這會不會造成單點故障”等問題,Nomad2012會對一切可能發生的情況做好準備。
在不造成單點故障的前提下減少網絡基礎設施
Nomad同時擁有字節層差異化、客戶端緩存管理以及點對點冗余等功能,另外Nomad2012的分布式體系允許企業以難以置信的幅度(95%)削減基礎設施服務器規模,而且不會帶來任何單點故障之類的風險、不必要的客戶端或者內核驅動。
出于管理政策、設施地理位置或者提高可用性及災難恢復效果的考慮,大多數企業都希望內部設施能夠以多點方式運行,而Nomad2012則是同類產品中惟一能滿足這些需求的佼佼者。
除此之外,Nomad2012的系統部署工具還允許企業以超載形式處理遷移項目,這樣一來我們就能夠在不添加額外技術人員的基礎上,最大程度通過自動化方式完成客戶系統遷移。總而言之,Nomad2012值得一試,它讓你的各類分支業務聚合成統一的整體——一套方案、通吃全部。
原文鏈接:Extreme OSD – Upgrading the OS of the Curiosity Rover on Mars
【編輯推薦】