重塑數據中心的人工智能
毫無疑問,人工智能(AI)如今正在滲透到各種技術的各個方面,從癌癥的早期發現到理解各國的人類語言,以及在實時高分辨率視頻中分辨人臉。大量消費者應用為主流需求、社會認可和人工智能的日益普及提供了動力和資金。現在,人工智能思維系統正在快速地進入企業IT領域。
很多組織的IT團隊已經看到人工智能成為許多任務的主流,其中包括網絡安全、IT運營、監控、數據分析、業務流程自動化和基礎設施配置,以響應緩慢增長的技術勞動力和快速增長的IT工作負載之間日益擴大的差距。
然而,對于數據中心而言,它們僅代表兩種主要應用:用于數據中心的人工智能和用于人工智能的數據中心。
用于數據中心的人工智能
如今,智能產品已經通過篩選大量繁雜的操作遙測數據、發現異常、關聯事件和確定根本原因來增強IT運營和分析。人們還看到人工智能技術添加到基礎設施配置和流程自動化中,如今幾乎每周都有新產品推出,并將人工智能帶入新的領域。隨著人工智能在IT運營中的成熟,它從解釋發生了什么、提出建議或識別異常的被動報告者轉變為預測失敗、自主調整過程的步驟以及自動部署或銷毀容量的更加主動的參與者。
但其最大的影響可能是數據中心將人工智能與數據中心信息管理(DCIM)系統結合起來,以提供數據中心的智能運營。2014年,谷歌公司使用DeepMind對其數據中心的風扇、通風和冷卻設備進行控制調整,將電力成本降低了40%。例如今年,谷歌公司為冷卻系統運營一個自我學習的算法,不是表明各種變化,而是直接自主調整控制,觀察結果,通過學習變得更加智能。對于量化結果來說還為時過早,但早期跡象看起來很有希望。
但現在只是才剛開始。這些智能產品將在機房的機架上虛擬地重新定位發熱的計算負載,以實現最佳溫度控制。其他DCIM供應商也在研究人工智能算法,以根據不斷變化的硬件容差、功耗/成本趨勢、瞬態工作負載來改變數據中心環境溫度。除了監控冷卻設備之外,人工智能管理配電系統,其節省數據中心電力成本的潛力同樣引人注目。而如果人工智能在全球所有數據中心上擴展應用的話,其影響可能是巨大的。
展望未來,新興的智能DCIM系統將數據中心物聯網傳感器數據(如熱量、氣流、振動,超聲波、功耗、水和煙霧檢測)整合到基于人工智能的平臺中,不僅可以檢測異常的數據中心行為,還可以確定問題的根源和原因。很快,這些智能DCIM系統不僅會說明某些事情失敗的時間、地點和原因,而且還會在事情出錯之前預測性地提醒操作人員,并且在某些情況下,還會自動禁止。
用于人工智能的數據中心
由于人工智能幾乎改變了每個數據中心應用程序,它也在重塑軟件開發生命周期(SDLC)。傳統應用程序通過程序化更改演變為其底層代碼庫,然后使用嚴格測試進行驗證,并以受控、可管理、可重復方式部署到生產過程中。但是,基于人工智能的應用程序不依賴于代碼更改或單向部署。相反,許多人在開發環境中發展更智能模型并將其部署到生產中,而其他人則在生產中進行自我訓練,在那里他們從現實世界數據中學習并將這些知識傳播回開發環境。這種雙向細微差別對數據中心網絡拓撲結構具有根本性影響。
無論是嵌入在更加傳統的第三方應用程序中還是內部開發的人工智能算法,在對盡可能真實且相關的大量數據進行訓練時效果最佳。因此,在許多情況下,實時生產數據最適合訓練,但在其他應用中,非生產環境中的外部數據系統,以及由此產生的智能模型被部署到生產中。在這兩種情況下,人工智能應用程序不只是從非生產部門應用到生產部門中,還在兩者之間應用,而要求環境之間的網絡分割變得更具滲透性。
人工智能訓練需要大量的計算和大量的數據,數據越多越好。為了滿足這種對計算能力的巨大需求,人工智能訓練越來越多地發生在以CPU為中心的非CPU服務器上,這些服務器基于GPU、FPGA、定制ASIC或專用的深度學習單元,可提供數量級的性能提升。不幸的是,這些計算系統耗電量大,功率密度高達30-50kW/機架,而且預測下一代計算系統的功率密度將達到驚人的100kW/機架。擁有并運營40多個數據中心的數據中心運營商Flexential公司云計算主管Jason Carolan表示,“如果沒有對諸如液體冷卻之類的冷卻遏制解決方案進行實質性的重新設計,現有的大多數數據中心在規模上根本無法支持這一點。”
除了電源之外,這些超級計算機的運行速度與它們接收的訓練數據一樣快。結果是對大型、廉價和閃電般快速的近線存儲的需求不斷增長,觸發了更快的控制器、協議(例如,NVMe和NVMe-oF)和存儲媒介(例如3D XPoint和3D NAND)的市場競爭。
在許多情況下,基于人工智能的應用程序需要一個非生產訓練環境,其計算和存儲容量比生產環境更高。這種情況促進新計算和存儲平臺部署到開發和訓練環境中,以及最新的網絡、SAN和相關的監控和管理工具的更多改變。這些演進需要對數據中心的服務器和存儲拓撲進行徹底的轉換。
即將到來的基于人工智能的產品和服務將成為運營、自動化、監控、合規、安全、開發和云集成的分水嶺,而這些都將是數據中心大量基礎性改變的基礎。那些具有遠見卓識的數據中心運營商采用支持基于人工智能的應用程序,并通過人工智能進行操作,他們可以應對即將到來的市場風暴。