GitHub 全球崩潰:數百萬開發人員下班;國產Github呼聲強烈
周一早上,軟件開發平臺GitHub出現了嚴重宕機,眾多開發人員為之抓狂。

GitHub故障是從04:06 UTC(03:06 BST)開始的,在09:31 BST已得到了解決。

這次事件讓人們對單單在2020年4月發生三起單獨故障后GitHub的可靠性提出了新的疑問。
GitHub將4月的那三次故障分別歸咎于:
- 軟件負載均衡系統的錯誤配置破壞了在服務于GitHub.com的應用程序與其依賴的內部服務之間的流量內部路由;
- 數據庫連接配置錯誤,與當時進行中的數據分區工作有關,“導致意外地進入到生產環境”;
- 網絡配置“無意中應用于我們的生產網絡”。
GitHub在4月曾承認,其模擬實驗室環境存在問題。
該公司稱:“該模擬環境構建數據庫和數據庫連接的方式與生產環境不一樣。這可能導致生產環境所特有的連接變更的可測試性受限制。我們會在未來幾個月內解決這個問題。”
GitHub的大部分平臺都在其自己的裸機基礎架構上運行,網絡基礎架構則“圍繞Clos網絡拓撲結構而建,每個網絡設備都通過邊界網關協議(BGP)共享路由。”
GitHub在2018年被微軟以75億美元的價格收購,被5000多萬開發人員所使用。考慮到它支持的工作負載以及外界廣泛依賴它以確保高可用性,像這樣的大規模故障可能會帶來嚴重影響。
與其他許多大型基礎架構提供商一樣,GitHub的所有者微軟也面臨這個挑戰:新冠疫情后遠程工作人員數量激增,從而導致工作負載激增,因此需要迅速擴大數據中心基礎架構的規模。微軟在4月份承認,疫情過后,它面臨供應鏈方面的一些問題。
眾多網友在twitter、微博議論:





由于全球各地的工廠紛紛關閉,大企業和超大規模公司需要檢修數據中心,新冠疫情嚴重影響了全球服務器硬件供應鏈。(Dropbox的首席技術官表示,他公司的數據中心團隊“在8周內主動更換掉了30000個部件”,以安全地減少現場工作人員)。
與此同時,芯片制造商AMD在第一季度財報電話會議上表示,新冠疫情危機期間的短短10天內,一家未透露名稱的云提供商為數據中心增加了10000臺服務器,由于工作負載猛增,該云提供商拼命擴大其基礎架構的規模。
然而,GitHub的問題似乎主要還是跟模擬環境與生產環境之間的缺口方面的問題有關。