成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI Infra—如何從 LLM training 轉(zhuǎn) Inference 原創(chuàng)

發(fā)布于 2025-5-13 06:42
瀏覽
0收藏

LLM training轉(zhuǎn)inference需要加強的知識總結(jié)。

這篇附帶一些職業(yè)規(guī)劃的討論,其實Training 和 Inference 在不同公司不同崗位業(yè)務(wù)中的定位不同,但總得來說還是存在下面的區(qū)別:

  • LLM Training:包括但不限于優(yōu)化模型架構(gòu)(MoE),調(diào)節(jié)超參數(shù)優(yōu)化loss,訓(xùn)練微調(diào)(SFT, pretrain,RL,蒸餾)等等,這個是把模型訓(xùn)得更聰明的過程。
  • LLM Inference:包括PD分離(KV cache 優(yōu)化,  Page attention,Radix attention), 并行(各種parallelism, sharding),通信(NCCL),推理加速(量化),生成穩(wěn)定性監(jiān)控等等,這個是訓(xùn)完模型以后,能讓模型跑得效果更好,也就是更快更穩(wěn)定的過程。

先忽略Training和Inference這兩類型的目前招聘崗位的特點和要求(當(dāng)然大佬可能兩方面都特別強), 本篇主要介紹從training轉(zhuǎn)infra需要加強哪些方面的內(nèi)容,如何入手。

下面是一個快捷目錄。

1. 分布式系統(tǒng)

2. 推理加速

一、分布式系統(tǒng)

目前大家見到過的并行訓(xùn)練算法,包括但不限于DP,MP,PP,TP,SP/CP,EP等,分別是:

  • 數(shù)據(jù)并行(Data Parallel, DP)
  • 模型并行(Model Parallel, MP),又可以包括:

     a.張量并行(Tensor Parallel, MP)

     b.Pipeline并行(Pipeline Parallel, PP)

     c.Sequence并行(Sequence Parallel, SP,也可以叫Context Parallel, CP)

  • Zero Redundancy Data Parallelism (ZeRO)
  • Expert 并行(Expert Parallel, EP)

關(guān)于分布式系統(tǒng),???大模型面經(jīng)—分布式訓(xùn)練指南???這篇中有詳細(xì)介紹,這里著重講一下Expert 并行。

Expert Parallelism(EP)是針對MoE模型訓(xùn)練的特有并行方式,并且可以無沖突跟3D Parallelism結(jié)合。

MoE會在Transformer每層配置多路專家FFN網(wǎng)絡(luò),再由路由動態(tài)選擇專家并行處理不同輸入,使每個token只經(jīng)過部分專家,顯著降低FLOPs并保持模型容量。EP就是將每層中的所有專家劃分到不同的設(shè)備(GPU/TPU)上。比如16個專家分配8張卡,每卡持有2個專家。

因此在MoE的訓(xùn)練中,使用 EP 不會減少數(shù)據(jù)并行 (DP) 的數(shù)量,因為每個 EP 處理不同的數(shù)據(jù)。

二、推理加速

這塊的話主要還是PD分離的內(nèi)容,就是把推理的預(yù)填充階段(P)和解碼(D)階段分離,對兩階段分別優(yōu)化,提升GPU利用率減少延遲。

下面是當(dāng)前一些常見推理框架的總結(jié)。

AI Infra—如何從 LLM training 轉(zhuǎn) Inference-AI.x社區(qū)


圖片來源


??http://xhslink.com/a/eGufxsVnYvbcb??

想要入手可以推薦把Ray,vLLM或是sglang系統(tǒng)性的刷一遍。

刷一遍之后,大家可以做一個個人項目可以結(jié)合sglang的開源社區(qū),根據(jù)自己的深度思考建立一個自己的項目,去嘗試優(yōu)化PD分離的架構(gòu),比如如何優(yōu)化KV Cache Pool, P和D如何進行更優(yōu)的負(fù)載均衡設(shè)計等等。

其實Training 和Inference 在實際崗位中已經(jīng)密不可分了,未來最搶手的大概率是既懂Training又懂推理優(yōu)化的,大家一起卷卷吧~


本文轉(zhuǎn)載自??瓦力算法學(xué)研所??,作者:喜歡瓦力的卷卷?


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-13 06:42:35修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日本久久久久久 | 亚洲国产精品久久久 | 国产免费xxx | 国产中文一区二区三区 | 精品视频导航 | 免费成人午夜 | 四虎影视免费观看 | 精品欧美乱码久久久久久1区2区 | 欧美色影院 | 欧美日韩国产在线观看 | 91麻豆精品国产91久久久更新资源速度超快 | 成人午夜黄色 | 午夜寂寞影院列表 | 91久久精品国产 | 国产精品视频免费播放 | 亚洲精品1区2区3区 91免费看片 | 久久国产精品免费一区二区三区 | 欧美 日韩 国产 成人 在线 | 国产成人精品一区二区三区在线观看 | 精产嫩模国品一二三区 | 午夜视频一区 | 综合婷婷| 综合久久久 | 日韩毛片在线视频 | 国产精品a一区二区三区网址 | 国内精品久久久久 | 久久久tv | 蜜桃黄网 | 精品视频一区二区三区在线观看 | 成人精品一区二区户外勾搭野战 | www.精品国产| 亚洲www.| 亚洲国产精品va在线看黑人 | 欧美激情在线播放 | 精品免费国产一区二区三区四区介绍 | 精品二区视频 | 日本在线中文 | 国产一区不卡 | 亚洲一二三在线 | 玖玖精品 | 一区二区三区高清不卡 |