寫給大模型新人的經驗,刷到少走三年彎路!
大家好,我是丁師兄。
這篇文章,我將結合自己在大模型領域的經驗,給大家詳細聊聊新人應該如何轉行大模型賽道?
比如大模型都有哪些方向?各方向的能力要求和崗位匹配?新手轉行大模型常踩的坑和常見的誤區?以及入行大模型最順滑的路徑?
如果你是正打算入行大模型的校招/社招同學,請一定看完,可能會讓你在入行大模型的路上,少走很多彎路。
1.大模型都有哪些方向?
如果你在求職網站搜索"大模型"關鍵詞,看一下招聘 JD,基本可以了解現在業內對大模型工程師的需求方向和能力要求.。
總結一下,大致可以分為 4 類:
- 做數據的(大模型數據工程師,爬蟲/清洗/ETL/Data Engine/Pipeline)
- 做平臺的(大模型平臺工程師,分布式訓練/大模型集群/工程基建)
- 做應用的(大模型算法工程師,搜/廣/推/對話機器人/AIGC)
- 做部署的(大模型部署工程師,推理加速/跨平臺/端智能/嵌入式)
2.大部分新手的誤區
如果是你,看到這幾個方向,會怎么選?我估計很多人都直奔第三點去了,堅定的要做應用,走在所有工種的最前沿,做出讓老板,用戶都看得到的核心"產品"。
不過這里我不禁要給各位潑一點冷水,在 AI 算法這個行業,三是很吃業務經驗的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做語音助手,對話機器人這類的,再順水推舟做相關方向的大模型算法工程師,這是比較合適的。
在自身業務里融入一些大模型的算法和技法,拿到實際的業務產出,去市面上也比較好找這類崗位。
但如果你是 CS 方向的實習生/應屆畢業生,或者其他 IT 方向轉行大模型,3 未必是一個最好的選擇,大家不要帶著一個誤區:大模型算法工程師就是調模型,調超參,做一做預訓練,做一做 finetune,SFT 之類的活。
實際上呢,這部分工作只有很少人做,基本一個 team 中只有個位數的人,或者只是算法工作的很小的一部分。
注意一點,新人進去 90% 以上都不可能直接讓你干算法模型調優的活,大部分可能還是讓你配環境,搭鏈路,清洗數據,分析數據,調研,寫一寫 function,tools。
這些體力活都干熟了以后,可能才會讓你跑一些模型實驗。其中比較出色的,腦子比較靈活的同學,才會慢慢讓他們開始接觸線上業務。
也有很多同學,干了好幾年,還是在干一些邊角料,臟活,雜活,根本接觸不到核心業務。對于剛入行的新人,如果你學歷背景好點,可以去大公司做 intern 然后轉正,背景差一點,可以去中小公司,積累業務經驗。
3.數據很重要!
然后很多人可能往往忽視了上面的 1,2,4,覺得我學了這么多算法知識,學了機器學習,深度學習,還了解大模型,再去做數據,有點屈才了。
但我想告訴你的是,1 是更多轉行大模型同學更容易上岸的方式。條條大路通羅馬,不是只有一條路走到黑。
首先,目前國外的大模型技術至少領先國內兩年,雖然國內已經有幾十上百個“大模型”了,但真正能打的并沒有幾個。探究原因,還是有很多技術沒有突破。
算法本身來說,GPT 已經不是什么秘密了。那剩下還有什么呢,一是數據,二是工程技巧。
拿數據來說,先說通用的大模型訓練,數據的來源,從哪里采,數據的質量怎么把控,如何過濾有毒信息,語言的篩選與比例,數據的去重,以及數據的規范化處理,評測集的構建。這些既是體力活,又是技術活。
對于垂直領域,比如金融,電商,法律,車企,這種領域數據的構建就更考驗技術了,業務數據怎么來,數據不夠怎么辦,完全沒有數據怎么辦?如果構建高質量的微調數據?
能把這些問題解決好,模型也就成功了一大半。因此,就目前的現狀,對于數據工程師,特別是有經驗的數據工程師,是非常稀缺的。
4.大模型平臺干些啥?
然后說下 2,大模型平臺工程師。如果你之前是做工程的,或者對工程比較感興趣,我比較建議你選 2。
這二者其實并沒有本質的區別,都是為了大模型業務服務的,也叫大模型基礎設施的建設,作用就是讓大模型 train 得更好,大模型跑得更快。
這塊主要是干些啥呢?
從計算層面來說,有分布式計算,并行計算,高性能計算,有些公司對這三者也不加區分。
從硬件層面來說,有搞大模型訓練集群,GPU 集群,CPU/GPU 混部集群,池子里要管理幾百上千張卡,還要負責他們的利用率,機器的健康狀況,有沒有掛的,中小公司這塊基本都是開發和運維一體的,一個工作干兩個工種的活。
從平臺層面來說,有做 LLMOps 的,也就是 pipeline。集數據 IO,模型訓練,預測,上線,監控于一體,這種就是跟著業務團隊走,做適配,造很多高效的輪子,方面業務團隊使用,減少他們額外重復開發的時間。
這塊整體上來說,在大模型時代穩中有升,因為實際上很多公司這方面的人都是從之前搞深度學習平臺,大規模機器學習平臺的人招過來的,技術上的 gap 相對比較小。因此,對于 AI 工程感興趣的,可以選這個方向。
5.大模型部署干些啥?
最后說一下 4,大模型部署工程師。這個崗位之前也有,不過在大模型這一兩年尤其的火熱。
什么原因呢?
因為部署大模型太費錢了。首先模型延遲本身就高,30B 以上的模型,對算力,顯存要求很高。
老板關心什么?一方面是大模型產品,也就是業務指標要好看,方便 PR。另一方面也要求控制成本(大廠/獨角獸除外)。
一般企業里面,一個 P8 級別的 leader,要在公司里面搶業務,拉資源,找人力,本身就是一個不容易的事。
“降本增效”是 23 年以來,幾乎所有公司的一個主旋律。所以老板們很關心你節約了多少錢,比如你把推理效率提高一倍,那就實實在在降低了一倍的成本。
回到大模型部署工程師來,這個崗位總體有兩個方向的工作:云端部署和端側部署。
云端比較好理解,可以做推理加速平臺,也可以隨著業務走,做大模型定制化加速。
比如 Qwen-7b 的加速,還可以做大模型推理引擎,比如搜索/問答的推理引擎,一般是在高并發用戶場景下,在保證用戶 SLO 的前提下,最優化 latency 和 throughput。
另一個大方向是端側的部署。也就是在消費級 GPU/NPU 以及邊端設備下,部署大模型,同時讓領域大模型小型化,讓業務能實際工程落地。
總的來說,大模型部署工程師對工程能力,系統能力,以及硬件等方面都要有一定的了解,現在各種推理框架出來以后,降低了一點難度,但仍然是一個比較有競爭力的工種。
你得了解計算圖和 OP 的優化,得了解各種推理框架,緩存/顯存優化,還有 LLM 結構運行時的系統架構。這個崗位一般不推薦新人入場,因為太吃經驗了。建議先從 2 進場,然后逐步轉到 4。
6.總結
最后,給準備入場大模型的新人幾點建議:
- 不要只關心 finetune,SFT,RLHF,作為系統性學習是 OK 的,切忌花太多精力。
- 想做應用的,建議 focus 到某個垂直領域,比如對話機器人,問答系統,金融/醫療/教育方向,找一個具體的場景,把它做好,做深。
- 多關心數據,data pipeline,高質量訓練/測試集的構建經驗,對數據的sense,是最直接,也是最適合用到未來工作當中的。
- 大模型不只有算法,也可以有工程。大公司拼的都是基建,平臺是對業務的支撐,牛逼的 infrastrure 是大模型產品成功不可或缺的因素。
