成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直播首秀 AI大模型的存儲之道 原創

發布于 2024-6-21 14:38
瀏覽
0收藏

AIGC 在 2023 年爆火,各類大模型層出不窮,參數動輒達到千億數量級。這些背后,數據的類型和形式也走向復雜多樣。例如大模型會采用到我們真實物理世界中的文字、視覺、音頻、3D、雷達、多譜等復雜多樣的不同模態信號和數據,數據則又存在結構化、半結構化、非結構化等多種形式。

在大模型發展的初期:GPU很貴,相比之下存儲的成本忽略不計,可以直接選性能最好最貴的存儲方案。典型的高性能文件系統有GPFS、Lustre、Weka,以及其他高性能NAS 等。這些系統通常依賴全閃存(NVMe) 和高性能網絡提供極致性能。

但是隨著算力、數據與團隊投入都增大的時候,又發現新的問題:在預訓練階段,會產生更多實驗結果和中間數據,加上各種模型的checkpoint 和日志數據,預訓練環節總數據量預計將達到10PB 到 100PB。正式訓練環節,雖然企業可以將全部數據存儲于高性能存儲系統中,但是,高性能文件系統的性能都與容量是關聯的。如果要達到訓練所需的I/O 性能,需要擴大高性能文件系統容量。

直播首秀 AI大模型的存儲之道 -AI.x社區

大模型背景下,“存力”成為關鍵基礎設施能力。2023年10月,工業和信息化部等6部門聯合印發了《算力基礎設施高質量發展行動計劃》,明確提出到2025年存儲總量超過 180EB 、先進存儲容量占比達30% 以上的目標。先進存儲是指應用全閃存陣列、SSD 等先進存儲部件,采用存算分離、高密等先進技術,單位容量數據操作能力達到萬 IOPS(每秒讀寫次數)以上的存儲模塊。

下圖展示了根據算法性能需求和所用硬件條件選擇最合適的存儲技術的流程。在實際訓練過程中,可能會混合采用多種不同的存儲技術。例如,在GPU集群中,通過高帶寬的NVLink互聯的GPU組使用基于層內并行的分布式顯存管理技術;通過帶寬較低的PCIe互聯的GPU組使用流水線并行的方式。

直播首秀 AI大模型的存儲之道 -AI.x社區

大模型場景對于存力有著高吞吐、高IOPS、高帶寬、低延時的極致性能要求。尤其是大模型訓練環節,其數據量大、參數規模大、訓練周期長、投資規模大等特點是傳統AI場景所不具備的,因此為傳統AI場景而構建的基于開源技術或商業化產品的存力難以滿足性能需求。那什么樣的存儲架構才是AI大模型時代的最佳選擇呢?

直播首秀 AI大模型的存儲之道 -AI.x社區

首先,可以指定數據首次寫入時的放置策略,例如在數據獲取階段,新獲取的數據需要在短時間內處理的,可以直接放置到高性能層;而新獲取的數據在短時間內無需處理的或用來長期歸檔的數據,則可以直接寫入容量層;其次,可以設置豐富的數據分級流動策略,例如可以設置訪問頻度與時間相結合的流動策略,也可以設置容量水位觸發的流動策略;再者,根據用戶制定的分級策略,數據能夠在高性能層和大容量層之間自動分級流動,數據分級遷移過程對業務應用完全透明;最后,對于已經分級到容量層的數據,用戶可以通過命令或API對指定的數據集配置預熱策略,以加速計劃性任務的冷啟動速度。

大模型訓練中的檢查點Checkpoint

直播首秀 AI大模型的存儲之道 -AI.x社區

GPU 故障數量隨著 GPU 集群規模的增大而提高。GPU 的頻繁故障一方面會導致訓練得到的參數丟失;另一方由于大模型訓練中各 GPU 間的數據存在依賴關系,單 GPU 的故障會擴散到整個 GPU 集群中,有 2 類主要的工作解決大模型訓練故障的問題:參數檢查點和冗余計算。

參數檢查點技術以設定的頻率,將訓練得到的參數信息存儲到持久化的存儲介質中,以對 GPU 故障進行容錯。在 GPU 故障后,參數檢查點技術利用最新且完整的參數進行恢復。參數檢查點技術需要大容量的持久化存儲設備以保存檢查點信息。并且在恢復階段,參數檢查點需要從持久化介質中讀取之前版本的參數,這導致恢復開銷高,利用冗余計算的方式,在多張 GPU 中重復計算相同版本的參數,以對模型訓練數據容錯。在這個過程中,存儲要能在AI訓練每個epoch的shuffle階段,提供高效的億級文件列表獲取能力;要能支撐住在上億訓練集文件上,通過為每個文件頻繁創建新的硬鏈接,以實現訓練集的版本管理能力。

數據總量和數據質量決定了AI大模型的高度,數據準備效率和數據在全流程間的流轉效率將成為影響AI大模型端到端生產成本的核心要素。選擇一套可以滿足AI大模型快速發展的存儲系統,對于提升大模型生產效率、降低大模型TCO至關重要。

大模型訓練場景的基礎設施,618直播間討論。

Q1:說起AI大模型,我們首先聯想到的是GPU,算力,英偉達。有這些就夠了嗎?

A1:顯然不是,英偉達股價一路上漲,確實會讓人有個錯覺,AI就是GPU,其實不是,網上有句戲言:挖金子的AI還在虧,賣鏟子卻賺翻了。如果把數據當成一個礦藏,GPU好比挖礦的鏟子一樣。大模型訓練除了需要GPU算力,存力也是AI大模型的重要保障,主要基于以下幾個因素。

1,先說參數。ChatGPT 3.5發布的時候1750億參數,火星人埃隆馬斯克發布的Grok-1是3140 億參數,源文件200G,運行起來就得700G顯存。未來大模型參數千億級別奔向萬億參數;

直播首秀 AI大模型的存儲之道 -AI.x社區

2,再說數據集。大模型已從單模態走向多模態,將來還會走向全模態;用于訓練的數據集從3TB,增長到多模態40TB,未來全模態將會達到PB級數據;

3,對算力需求的增長速度大幅超越單GPU卡算力的增長速度,大模型訓練集群的規模會變得越來越大,這樣才能保證大模型的涌現能力;模型訓練checkpoint數據量也從十幾GB增長到幾百個GB,檢查點保存和恢復進度與模型大小成正比,更高頻度的CheckPoint給存儲帶來巨大寫入帶寬挑戰。

Q2:你剛才說到一個詞,涌現能力這個詞怎么理解?

A2:涌現 字面理解,厚積薄發。什么是“涌現現象”?當一個復雜系統由很多微小個體構成,這些微小個體湊到一起,相互作用,當數量足夠多時,在宏觀層面上展現出現象,就可以稱之為“涌現現象”。在日常生活中也有一些涌現,譬如雪花,雪花的構成是水分子,水分子很小,但是大量的水分子如果在外界溫度條件變化的前提下,相互作用,在宏觀層面就會形成一個很規律、很對稱、很美麗的雪花。

在AI大模型訓練過程中,人工智能模型有時,似乎會突然「理解」一個問題,盡管它們只是記住了訓練數據。這個突然轉變的過程,有個形象的說法叫頓悟,大模型突然從簡單地復制訓練數據,轉變為發現可推廣的解決方案。

直播首秀 AI大模型的存儲之道 -AI.x社區

AI大模型擁有更強的涌現能力,才會擁有更精準的語言理解和推理能力。當然,這里有一個重要的前提是,足夠多數據集對大模型進行高效訓練和存儲調度。否則的話,就算是有愛因斯坦的大腦,不識字不讀書,那也很難進行創造性的思考。

Q3:那也就說,不管你有多少GPU,但沒有足夠多的數據集訓練和存儲調度,也是無法頓悟?

A3:是的,頓悟是模型涌向能力的形象說法,該能力無處不在,只要摸清條件,做好AI全流程的數據存儲和資源調度,大模型就會頓悟,只是早晚的事。

AI全流程包括數據獲取、數據預處理、模型訓練與評估、模型部署應用這四個階段,每個階段都涉及海量數據的存儲與訪問。大模型的存儲系統應該是什么樣子呢?

這套存儲系統需要同時具備高性能層和大容量層,并對外呈現統一的命名空間,具備數據全生命周期管理的能力。同時,這套存儲還得可以承載AI全流程業務,支持NAS、大數據、對象、并行客戶端等多種訪問傳輸協議。而且呢,這套存儲還得具備數千節點的橫向擴展能力,隨著存儲節點數的增加,系統帶寬和元數據訪問能力可實現線性增長。這些需求,傳統的存儲,無論是集中式還是分布式,都是無法有效滿足大模型訓練的特殊應用場景。

Q4:在大模型場景中,京東云海是否具備以上特點?

A4:京東云海是京東云的存儲底座,利用完全自研的統一存儲引擎,提供塊文件 對象 并行 分布式 大數據等五種協議訪問,所有需要高效處理的數據 均在高性能存儲層完成,AI全流程各階段協同時,不再需要頻繁遷移數據。

直播首秀 AI大模型的存儲之道 -AI.x社區

京東云海可以大幅提升AI大數據訓練數據準備效率,提高AI計算集群的GPU利用率,顯著降低算力投資成本 和數據預處理成本,大大縮短AI大模型開發的周期。生產一個千億級參數的大模型端到端TCO總體擁有成本可以降低10%以上。

Q5:如此說來,京東云海確實是一款大模型訓練必備產品,怎么才能稱得上好呢?

A5:京東云海一套系統、一套參數具備高性能動態混合負載的承載能力。這該怎么理解呢?

在數據導入階段,大小文件同時寫入;在數據預處理階段,大小文件批量讀取處理后生成海量小文件;在模型訓練階段,海量小文件批量隨機讀?。辉谏蒀heckPoint時,要能滿足大高帶寬寫入;在模型部署階段,即使大并發讀取同一個模型文件,隨著部署設備數量的增加,集群聚合吞吐帶寬仍然可以線性增長。譬如,千億級大模型產生的模型文件有 400 GB 左右,向業務推送時,需要并發分發到前端數千個業務實例上。分發過程涉及 數百TB數據的讀取,因此需要高并發大帶寬讀取分發能力。

再說到一款好的產品是怎么樣的?必然是成本更低 性能更優和穩定可靠三項特征的集合,而京東云海,就是這三者合一的最佳之選。還有很關鍵的一點是,交付方式十分靈活,可以是通過純軟件授權,軟硬件一體機和系統集成的方式交付。

截止目前除了互聯網電商場景外,在一些大的算力中心,銀行證券醫療等行業已有落地案例。


本文轉載自公眾號數字化助推器  作者:天涯咫尺TGH

原文鏈接:??https://mp.weixin.qq.com/s/OeKlgw_mOZTIkb6rxBDFIw??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人在线视频网站 | 一区二区三区不卡视频 | 91在线观看网址 | 国偷自产av一区二区三区 | 在线观看成年人视频 | 欧美成人一区二免费视频软件 | 亚洲第一在线 | 日韩三级在线观看 | 亚洲国产精品久久久久婷婷老年 | 91久久国产综合久久 | 亚洲国产精品福利 | 午夜精品三区 | 一级片网址 | a级在线观看 | 国产传媒在线播放 | 国产精品入口麻豆www | 国产精品成人在线 | 国产精品久久久久久久久久免费 | 国产一区电影 | 九九热精品视频在线观看 | 一级a性色生活片久久毛片 一级特黄a大片 | 人人澡人人爱 | 精品国产欧美一区二区 | 亚洲成人精品 | 久久久久av | 激情91 | 精品亚洲一区二区三区 | 玖玖视频| 久久久久亚洲精品 | 在线欧美视频 | 在线视频国产一区 | 亚洲精品资源 | 久久久久久色 | 日本欧美国产 | 鲁一鲁资源影视 | 日本久草 | 国产精品久久久久久久久久久久午夜片 | 都市激情亚洲 | 国产精品视频一区二区三区 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 欧美一区二区在线观看 |