澳洲電訊(Telstra)利用深度學習應對網絡挑戰(zhàn)!
譯文【51CTO.com快譯】Telstra正在其網絡數據上運行深度學習算法,以便及早預測設備故障,并找到對付語音和短信騙局的方法。
數據科學(網絡)團隊經理Tim Osborne近日在IBM的Think2020大會上作了發(fā)言,透露了這個代號為Telstra AI Lab即TAIL的項目。
TAIL在一個仍在不斷改進的應用數據科學平臺上運行,該平臺是在IBM的幫助下搭建的。
它結合使用了現有的思科UCS C240和新的IBM Power System AC922用于計算,基于Kubernetes的堆棧在上面,包括用于在Kubernetes上運行機器學習算法的Kubeflow。
Osborne稱,TAIL由25位數據科學家和工程師組成的團隊提供支持,他們“與整個公司的網絡工程人員全面合作,以期解決數據科學方面最具挑戰(zhàn)性的問題。”
他稱TAIL竭力應對的早期挑戰(zhàn)包括網絡優(yōu)化、電源優(yōu)化、欺詐及與電信有關的其他騙局。
他說:“對我們而言,網絡優(yōu)化是指能夠進行預測,檢測和診斷我們未能發(fā)現的問題。”
“關鍵是能夠在我們的業(yè)務運營中取得積極的成果,為客戶帶來積極的成果,并努力思考我們如何才能擁有自組織的網絡。此外能夠使用深度學習算法理解機器代碼,弄清楚這意味著什么,以便我們能夠及早解決故障,這確實很棒,這正是我們眼下在做的事情。”
在電源優(yōu)化方面,Osborne表示公司在探究供暖通風空調(HVAC)的優(yōu)化,不過他并沒有透露細節(jié)。
他還表示,TAIL現用于打擊電信騙局。在過去這一年,Telstra及其他運營商在這方面面臨監(jiān)管壓力。
“全球移動領域發(fā)生了很多騙局——有人通過短信發(fā)送騙局;有人打來電話讓你回電,而打電話很費錢。我們正在采取相應對策。”
這項工作可以追溯到六個月前,Osborne透露,Telstra已請IBM搭建起了一個應用數據科學平臺,使TAIL能夠順利運行。
他說:“我們有人才,我們有使用場景,機會就擺在面前,何況我們有數據。我們就是沒有平臺。早在2019年12月,我們開始與IBM合作。這種合作絕對堪稱典范。”
“我們有共同的終極目標。IBM對獲得更多的經驗,讓客戶使用其平臺以及Kubernetes和Kubeflow很感興趣,而我們對在我們公司內使用那些工具并擴大規(guī)模很感興趣。”
“我們現在有一個很出色的機器學習平臺,我們的數據科學家現在心滿意足。”
Osborne說,數據科學平臺使其團隊能夠根據網絡業(yè)務的需求迅速調查,并針對實際使用場景迅速擴大規(guī)模。
他說:“隨著我們的業(yè)務變得更受歡迎,我們可以添加更多機器,可以在集群中添加更多機器,并根據需要擴展資源。”
底層揭秘
IBM的AI技術專家Adam Makarucha表示,應用數據科學平臺已在去年底今年初部署起來。
它最初基于原生的Kubernetes而建,但是現計劃將其遷移到Red Hat的OpenShift容器管理平臺,因為OpenShift版本4.3支持Power System。
在硬件方面,Marakucha表示“總共有六臺機器和六個節(jié)點”。
他說:“計算量似乎不大,但是該部署環(huán)境的關鍵是這些節(jié)點中每個節(jié)點都有GPU加速功能。這實際上意味著該機器的計算和功能總量實際上遠超出了6節(jié)點系統(tǒng)的容量。實際上,其總性能可能相當于160個節(jié)點。該平臺總共擁有237.6 Teraflops的[GPU]單精度性能。”
Marakucha稱,雖然Telstra想使用Power System AC922,但也想充分使用已購置的思科UCS硬件及其他設備和服務。
Marakucha說:“我們本可以走使用基于x86的集群這條路,但是Telstra希望引入AC922,就因為它們在針對很龐大的數據集和大型模型進行深度學習方面有優(yōu)勢。”
他表示,雖然這種混合環(huán)境可能很難管理,但Kubernetes能夠承擔大部分的重任。
Marakucha還說,該環(huán)境已經過配置,對單單一個數據科學家在任何時間可以使用的資源數量作了一番限制,以防資源被獨占。
“如果你是數據科學家,可能會這么做:我會試圖獲得盡可能多的CPU核心和計算資源,即便不會同時使用這些資源。這種環(huán)境下的許多數據科學家在做同樣的事情,這意味著我們很快耗盡計算資源,因為我們在消耗所有核心。”
“于是我們將核心數量嚴格限制在兩個,這意味著我們有靈活性,因為Kubernetes的優(yōu)勢在于,如果你要求兩個核心,起碼保證你有兩個核心,但又允許你擴展到更多的核心,如果有閑置核心的話。我們只是鎖住了一些配置,以防過度配置。”
原文標題:Telstra throws deep learning at its network challenges,作者:Ry Crozier
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】