阿里集團(tuán)基于Fluid+JindoCache加速大模型訓(xùn)練的實(shí)踐
一、背景時(shí)間步入了2024年,新的技術(shù)趨勢(shì),如大模型AIGC多模態(tài)等技術(shù),已經(jīng)開始與實(shí)際業(yè)務(wù)相結(jié)合,并開始生產(chǎn)落地。這些新的技術(shù)趨勢(shì)不僅提高了算力的需求,也給底層基礎(chǔ)設(shè)施帶來了更大的挑戰(zhàn)。在計(jì)算方面,以GPU和FPGA等異構(gòu)硬件為例,他們通過短周期的迭代和演進(jìn)來適應(yīng)不斷變化的需求。阿里集團(tuán)通過統(tǒng)一調(diào)度、統(tǒng)一資源池以及全面彈性等調(diào)度手段滿足了復(fù)雜的計(jì)算需求。在存儲(chǔ)方面,經(jīng)典的微服務(wù)應(yīng)用通過云原生化的方式,兼顧了...