騰訊大數據宣布推出第三代高性能計算平臺Angel 并于2017年全面開源
12月18日,深圳 - 騰訊大數據宣布推出面向機器學習的第三代高性能計算平臺——Angel,并預計于2017年一季度開放其源代碼,鼓勵業界工程師、學者和技術人員大規模學習使用,激發機器學習領域的更多創新應用與良好生態發展。
騰訊今日在騰訊大數據技術峰會暨KDD China技術峰會上宣布這一消息,騰訊副總裁姚星先生,及騰訊數據平臺部總經理、***數據專家蔣杰先生出席了峰會并發表演講。
姚星表示:“人工智能的發展在過去60年中幾經沉浮,今年終于發出了璀璨光芒,很大的原因就是跟云計算和大數據有關,這是一種演進發展的必然結果。如何處理好大數據,如何在有限的計算資源上對這些大數據進行深入挖掘和分析,這是未來整個產業發展和升級的一個大課題。我相信大數據將成為這次產業升級的基礎,核心算法將成為這次產業升級的靈魂。”
“面對騰訊快速增長的數據挖掘需求,我們希望開發一個面向機器學習的、能應對超大規模數據集的、高性能的計算框架,并且它要對用戶足夠友好,具有很低的使用門檻,就這樣,Angel平臺應運而生。”蔣杰表示:“機器學習作為人工智能的一個重要類別,正處于發展初期,開源Angel,就是開放騰訊18年來的海量大數據處理經驗和先進技術。我們連接一切連接的資源,激發更多創意,讓這個好平臺逐步轉化成有價值的生態系統,讓企業運營更有效、產品更智能、用戶體驗更好。”
Angel是騰訊大數據部門第三代的計算平臺,使用Java和Scala語言開發,面向機器學習的高性能分布式計算框架,由騰訊大數據與香港科技大學、北京大學聯合研發。它采用參數服務器架構,解決了上一代框架的擴展性問題,支持數據并行及模型并行的計算模式,能支持十億級別維度的模型訓練。
不僅如此,Angel還采用了多種業界***技術和騰訊大數據自主研發技術,如SSP(Stale synchronous Parallel)、異步分布式SGD、多線程參數共享模式HogWild、網絡帶寬流量調度算法、計算和網絡請求流水化、參數更新索引和訓練數據預處理方案等。這些技術使Angel性能大幅提高,達到常見開源系統Spark的數倍到數十倍,能在千萬到十億級的特征維度條件下運行。
在系統易用性上,Angel提供豐富的機器學習算法庫及高度抽象的編程接口、數據計算和模型劃分的自動方案及參數自適應配置,同時,用戶能像使用MR、Spark一樣在Angel上編程,我們還建設了拖拽式的一體化的開發運營門戶,屏蔽底層系統細節,降低用戶使用門檻。另外,Angel還支持深度學習,它支持Caffe、TensorFlow和Torch等業界主流的深度學習框架,為其提供計算加速。
自今年初在騰訊內部上線以來,Angel已應用于騰訊視頻、騰訊社交廣告及用戶畫像挖掘等精準推薦業務。
今年11月,騰訊云大數據聯合團隊在有“計算奧運會”之稱的Sort Benchmark排序競賽中,用時不到99秒完成100TB的數據排序,在測試大規模分布式系統軟硬件架構能力和平臺計算效率的GraySort和MinuteSort兩項排序競賽中奪得4個冠軍,將去年冠軍的紀錄分別提高二到五倍。冠軍的背后是騰訊大數據多年的積累,而Angel更是騰訊大數據下一代的核心計算平臺。
在此次會上,姚星談到了騰訊對于大數據和人工智能的看法。蔣杰詳細分享了此次奪冠背后騰訊大數據的發展之路,及Angel系統構建的生態圈層。以下為演講全文:
大家早上好,非常高興今天參加kdd china技術峰會。過去的20年是信息時代快速發展的20年,信息產業的發展遠超其他產業。信息產業的發展提升了人類的生活品質,也深深影響著我們這一代人。信息產業的高速發展離不開計算能力的提升,無論是我們使用的處理器計算能力還是網絡傳輸能力,在過往20年發展中都保持了“摩爾定律”的趨勢,使得我們互聯網產品深入千家萬戶,得到了廣泛應用。隨著互聯網產品滲透率的逐步趨穩,互聯網產業今后的發展趨勢在哪里?什么樣的技術、業務形態會***后續的產業發展?時至今日,我想答案毫無疑問是人工智能。人工智能在過往的60年發展中幾經沉浮,起起落落,在今年散發出璀璨的光芒,人工智能的興起是大數據、云計算科學進步的產物。充分利用計算資源,對海量大數據通過算法進行進一步的挖掘分析,這是互聯網產品和產業的未來發展趨勢。大數據是基礎、核心算法是靈魂。騰訊公司通過18年的發展今天已經成為了***的互聯網公司。過去我們在產品體驗上更加關注的是簡單、好用。通過簡單的方式提升人們的溝通效率,通過簡單的方式讓人們輕松享受數字內容時代。在技術上,我們過去更加關注的是工程技術,也就是海量性能處理能力、海量數據存儲能力、工程架構分布容災能力。未來騰訊必將發展成為一家***科技的互聯網公司,我們將在大數據、核心算法等技術領域上進行積極的投入和布局,和合作伙伴共同推動互聯網產業的發展。
騰訊公司是一家消息平臺+數字內容的公司,本質上來講我們也是一家大數據公司,今天我們每天產生數千億的收發消息,超過10億的分享圖片,高峰期間百億的收發紅包。每天產生的看新聞、聽音樂、看視頻的流量峰值高達數十T。這么大的數據如何處理好,使用好的確是***挑戰的。在大數據上騰訊也秉承開放生態理念與合作伙伴一起共建大數據生態,在云、支付、LBS、安全方面,與生態合作伙伴共建基礎設施,與合作伙伴一起助推產業升級。
今年騰訊成立了AI實驗室,我們確立的是四個基礎的研究方向,包括計算機視覺、語音識別,自然語言處理,以及機器學習。我們也確立了四個業務發展方向:首先我們會聚焦于內容AI,主要聚焦于搜索和個性化推薦,除了文本以外的深度內容再加上富媒體內容的深度理解。第二個是游戲AI,這是基于騰訊業務本質特性相關的。我們會打造競技類游戲相關的AI能力。第三個方向我們會構建社交AI,這是基于我們騰訊最主要的社交平臺的AI。相信在未來的產品形態上會出現智能音響也好,智能助手也好。第四個是云AI,我們會把我們的圖象識別能力、語音識別能力、自然語言處理能力以及大數據機器學習的平臺開放給更多的用戶使用。騰訊的AI使命是最終打造廣義通用AI,實現每個人心中的“大白”。使得我們的小朋友更加的“被理解”,使得我們的成年人更加的“被保護”,使得我們的老年人更加的“被照顧”。
目前AI整個行業還處于早期階段,雖然在某些垂直領域已經或者達到了某些人類的平均智能水平,但是這與人的綜合智能還相差甚遠。無論我們有如何先進的算法模型,我們都需要重新訓練數據。無論我們有如何深層的網絡模型,本質上都是通過算力解決問題。這和人與生俱來的智能,以及“創造力”、“舉一反三”、“歸納總結”能力都相差甚遠。但是我們也看到了積極的方向,比如deepmind的reinfocement的強化學習的發展進步,openai的gan生成對抗網絡的發展。這些積極的發展使得AI的領域發展日新月異。
我相信在與會的各位專家和各位從業精英的積極投入和參與下,AI的發展必將朝氣蓬勃、勢不可擋!***預祝大會圓滿成功!謝謝!