100倍加速!深度學習訓練神器Determined AI宣布開源!更快,更簡單,更強大
作為一名深度學習科研人員,小編我可是深受模型訓練的困擾:一個模型要跑幾天幾夜,結果最后發現有一步錯了 ...從頭再來
超參數怎么調精度都上不去,心真的好累...
手動調整系統環境,只要錯一個,就跑不起來了嗷...
常常只是為了訓練一個模型,就要耗費巨大的時間,改來改去,還有經過漫長的等待,內心真的在默默哭泣有木有!
然后,我發現我竟然還能再拯救一下——Determined AI駕著七彩祥云來救我啦!
同樣受到這種苦惱,深有感觸的眾多深度學習研究人員,花費了數年心血,終于開發出了一個便利廣大深度學習從業人員的訓練神器。
這款深度學習訓練平臺,是由多年從事實踐領域的專家,耗費三年時間構建完成的,他們的目標是幫助深度學習團隊更快地訓練模型,輕松共享GPU資源并有效協作。
Determined使深度學習工程師可以集中精力大規模構建和訓練模型,而無需擔心DevOps,或者為常見任務(如容錯或實驗跟蹤)編寫代碼。
官網鏈接:
https://determined.ai/developers/
“等一下,這里面到底有啥,能不能詳細說明一下!”
好,那我就好好扒一扒,給大家看看。
專注模型訓練,更快更準!
眾所周知,一個完整的深度學習項目,包括了數據準備,模型訓練以及模型部署等環節:
而Determined,則可以幫助我們更好的專注于模型本身的訓練,而不是把時間和精力大量花在樣例代碼和DevOps上。
模型訓練部分,Determined可以幫助我們完成:
- 更快的分布式訓練
- 智能的超參優化
- 實驗跟蹤和可視化
這樣,它就可以使我們可以專注于手頭的任務——即訓練模型上。
訓練人員,可以立即進入為深度學習工作而創建的專用環境,然后將時間花費在來設置模型上,而完全不必擔心安裝,拆卸和其他樣例代碼的問題。
看到這里我想說,開發人員真的是太貼心了,他們很清楚我們不想花時間做什么,我真的感激*100!
那這個神器可以幫我們處理什么呢?
- 內置的訓練循環抽象,可支持實驗跟蹤,有效的數據加載,容錯,并可以靈活地進行自定義。
- 高性能的分布式培訓,無需更改任何代碼。
- 基于前沿研究的自動超參數優化。
有了這些功能,模型訓練so easy!老板再也不用擔心我的模型!
直接點擊官網鏈接,就可以體驗這些功能:
接下來,我們可以看看這兩個和模型訓練密切相關的部分——分布式訓練速度和智能超參優化具體是怎么一回事:
分布式訓練
Determined主要運用了Horovod,以Horovod為起點,研究人員運用了多年的專業知識和經驗,使得整個訓練過程比庫存配置要快得多。
這樣,我們就可以更減少浪費的時間,更好的利用計算機的硬件設備,來達到高效的訓練速度。
在這里科普一下Horovod:
Horovod 是一套面向TensorFlow 的分布式訓練框架,由Uber 構建并開源,目前已經運行于Uber 的Michelangelo 機器學習即服務平臺上。Horovod 能夠簡化并加速分布式深度學習項目的啟動與運行。當數據較多或者模型較大時,為提高機器學習模型訓練效率,一般采用多 GPU 的分布式訓練。TensorFlow 集群存在諸多缺點,如概念太多、學習曲線陡峭、修改的代碼量大、性能損失較大等,而 Horovod 則讓深度學習變得更加美好,隨著規模增大,Horovod 性能基本是線性增加的,損失遠小于 TensorFlow。
有關Horovod的詳細信息,大家可以點擊下方鏈接進行學習和了解~
"是時候放棄 TensorFlow 集群,擁抱 Horovod 了"
https://www.infoq.cn/article/J4ry_9bsfbcNkv6dfuqC
使用Determined,我們的分布式模型訓練速度能有多快呢?下圖告訴我們,可以達到24倍!!
PS:真的有快很多啊嚕,感慨...
超參數優化
通過提供和任務密集集成的前沿智能搜索功能,以及默認并行的設置,開發者幫我們免除了傳統超參搜索調試的麻煩。
這樣,我們就可以用更快的速度,來獲得更準確的模型。
那使用Determined,超參數優化的速度又可以提高多少倍呢?
100倍!看到這里,我真的很真實的在感動了... 多出的時間是不是可以用來玩動森? 反正也有正當理由:為ACAL2020做準備哈哈~
GPU調度更加靈活,支持各種流行框架
Determined還可以更加靈活的進行GPU調度,包括:
1)動態調整訓練任務的大小
2)自動在AWS和GCP上管理云資源
同時,它還可以支持TensorBoard和基于GPU的Jupyter Notebook。(我最親愛的小伙伴也可以在這個平臺上使用了誒!!)
“Tensorflow和Pytorch都能支持嗎?”——吃瓜的路人甲忍不住了
哦對了,還有一個關鍵點,那就是使用這個平臺的同時,我們可以繼續使用Tensorflow和Pytorch,只要改一下模型的代碼,來實現Determined的API就可以了。
是不是很方便!
平臺透明開放,用戶服務完備
深度學習團隊協作工具
這個平臺透明,開放,并且方便團隊協作,很適合深度學習團隊使用:
Determined通過實驗跟蹤,日志管理,指標可視化,可重復性和依賴性管理等,幫助任何人在實驗管理中脫穎而出。對任何規模的團隊來說,這款平臺都是完美的。
從一個團隊開始,使用者可以在準備就緒后,輕松地共享和擴展工作。
開源,適用于各種云供應商
開發者建議:深度學習從業人員可以選擇跳出專有解決方案:
“Determined可以支持云平臺,或者本地基礎結構,甚至兩者都可以。該平臺可以在您選擇的深度學習框架中工作,并隨時導出到流行的服務框架中。”
使用這個平臺,使用非常簡單的步驟,就可以開源項目,從而造福其他小伙伴~
詳細的用戶文檔
Determined現在已經有正式的用戶手冊,可以供使用者隨時查閱和參考:
https://docs.determined.ai/latest/
還有簡單容易上手的tutorial:
最后,開發者還特別貼心的附上了Slack鏈接,任何人都可以和Determined的開發團隊交流,并進行反饋和溝通:
這里放上項目開源地址,有興趣的小伙伴可以馬上去GitHub體驗下:
https://github.com/determined-ai/determined