OpenAI 將 k8s 擴展至 7500 個節點以支持機器學習
為了滿足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及類似于神經語言模型的縮放定律的快速小規模迭代研究,OpenAI 將基礎設施 k8s 集群擴展到 7500 各節點。
據其描述,對于大型機器學習作業來說,一個節點通常由單個 pod 占據,并且 OpenAI 部署的集群具有二等分帶寬,因此盡管其有許多節點,但是調度程序的壓力相對較低,僅在一項新任務一次性創建數百個 pod 時會有調度壓力。
除此之外,OpenAI 還詳細說明了其在擴展 k8s 集群時的重要工作內容,比如通過改用基于別名的 IP 尋址來解決大量節點的聯網問題,在專用節點上部署 etcd 和 API 服務器以分散負載,定位使用 Prometheus 和 Grafana 收集指標時的 OOM 問題,設計對集群的健康檢查,以及在團隊中合理分配集群資源等。
不過,OpenAI 也指出,在擴展 k8s 集群時,目前仍有一些問題要解決,比如大規模時 Prometheus 的內置 TSDB 存儲引擎壓縮速度過慢,并且需要很長的時間才能重新啟動 WAL(寫入預錄),以及擴展集群時,由于每個 pod 都會被計算為需要一定帶寬而帶來的網絡帶寬壓力。然而,盡管還有很多地方需要改進,但 k8s 憑借其出色的擴展能力,仍然能滿足其研究需求。
本文轉自OSCHINA
本文標題:OpenAI 將 k8s 擴展至 7500 個節點以支持機器學習
本文地址:https://www.oschina.net/news/127949/openai-scale-k8s-7500