Microsoft 365 大規(guī)模中斷系 WAN 路由器 IP 更改所致
Bleeping Computer 網(wǎng)站披露,長達五小時的 Microsoft 365 全球中斷是一個路由器 IP 地址變化,致其廣域網(wǎng)(WAN)中所有其它路由器之間的數(shù)據(jù)包轉(zhuǎn)發(fā)問題引起。
2023 年 1 月 25日,Microsoft Teams、Outlook、Xbox 和其它 Microsoft365 服務均出現(xiàn)不同程度中斷、延遲的現(xiàn)象,主要影響亞洲和歐洲用戶,引起業(yè)內(nèi)廣泛關注。微軟接到客戶報告后立刻展開調(diào)查,并組織技術專家修復程序,排除故障以使服務恢復在線。
隨著事故發(fā)展,微軟 365 團隊在社交媒體上表示其發(fā)現(xiàn)一個潛在網(wǎng)絡問題,并正在審查遙測技術以確定下一步的故障排除步驟。目前,微軟已將服務中斷問題與網(wǎng)絡配置問題隔離開來,正在分析解決這些問題的最佳緩解策略,力爭不會造成額外影響。
微軟多個服務受到中斷影響
根據(jù) Redmond 的說法,受影響用戶可能無法訪問有問題的 Microsoft 365 服務。此次中斷影響的服務清單主要包括:
Microsoft Teams、Exchange Online、Outlook、SharePoint Online、OneDrive for Business、PowerBi、Microsoft 365 Admin Center、Microsoft Graph、Microsoft Intune、Microsoft Defender for Cloud Apps和Microsoft Defender for Identity。
Azure 團隊在 Microsoft Azure 服務狀態(tài)頁上強調(diào),技術團隊已經(jīng)確定網(wǎng)絡連接問題發(fā)生在微軟廣域網(wǎng)(WAN)設備上,這主要影響到互聯(lián)網(wǎng)客戶與 Azure 之間的連接、ExpressRoute 連接以及數(shù)據(jù)中心服務之間的連接。
服務器中斷問題正在造成一波波影響,大約每 30 分鐘達到峰值。此外,一些客戶在加載 Microsoft Azure 狀態(tài)頁面時同樣會遇到問題,該頁面間歇性顯示“504網(wǎng)關超時”錯誤。目前微軟內(nèi)部技術團隊正在展開積極調(diào)查,一旦有更多消息,會立刻分享給大眾。
隨著調(diào)查深入,Azure 團隊發(fā)現(xiàn)此次故障背后的根本原因是微軟廣域網(wǎng)(WAN)的近期更新,目前微軟已采取措施回滾這一更新。值得一提的是,微軟強調(diào)最新遙測顯示多個地區(qū)和服務都有恢復的跡象,正在繼續(xù)積極監(jiān)測,可以確認受影響的服務已經(jīng)開始慢慢恢復并保持穩(wěn)定。
Microsoft 365 全球中斷由某個路由器 IP 變化引起
經(jīng)調(diào)查分析,微軟最后確認長達五小時的 Microsoft 365 全球中斷是路由器 IP 地址更改所致,該更改引起了其廣域網(wǎng)(WAN)中所有其它路由器之間的數(shù)據(jù)包轉(zhuǎn)發(fā)問題。
Redmond 對事件調(diào)查后表示全球性中斷是由 WAN 更新導致的 DNS 和 WAN 網(wǎng)絡配置問題造成的,許多用戶在訪問受影響的 Microsoft 365 服務時都遇到了問題。微軟透露,服務器中斷問題是在使用未經(jīng)徹底審查的命令更改 WAN 路由器的 IP 地址時引發(fā)的,該命令在不同網(wǎng)絡設備上具有不同的行為。作為更新 WAN 路由器上 IP 地址的計劃更改的一部分,向路由器發(fā)出的命令使其向 WAN 中的所有其它由器發(fā)送消息,這導致所有路由器重新計算其鄰接表和轉(zhuǎn)發(fā)表。
在重新計算過程中,路由器無法正確轉(zhuǎn)發(fā)通過它們的數(shù)據(jù)包 當網(wǎng)絡從 UTC 08:10 開始自行恢復時,負責維護廣域網(wǎng)(WAN)運行狀況的自動化系統(tǒng)由于網(wǎng)絡受到影響而暫停。這些系統(tǒng)包括識別和消除不健康設備的系統(tǒng),以及優(yōu)化網(wǎng)絡數(shù)據(jù)流的流量工程系統(tǒng)。
由于暫停,一些網(wǎng)絡路徑從 UTC 9 時 35 分開始繼續(xù)“歷經(jīng)”數(shù)據(jù)包丟失增加,直到手動重新啟動系統(tǒng),使WAN 恢復到最佳運行狀態(tài),并在 UTC 12 時 43 分完成恢復過程。
特別強調(diào)的是,從 UTC 上午 7:05 開始調(diào)查,到 UTC 下午 12:43 恢復服務,Redmond 僅花費五個多小時就解決了服務中斷問題。
服務器中斷事件后,微軟表示正在阻止執(zhí)行具有高度影響力的命令,并且還將要求所有命令執(zhí)行都遵循安全配置更改的指導原則。