成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產萬卡系統究竟怎么樣了?中國工程院院士鄭緯民:國產萬卡很重要,但也很難,異地卡聯合訓練不太可行 原創

發布于 2024-12-16 18:10
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

臨近年底,業內曝出了不少大新聞,比如大模型撞墻、谷歌的Gemini 2 Flash和量子芯片Willow,再比如英偉達面臨著中國反壟斷調查的危機等,所有這些,讓國產AI算力的話題再次成為圈內的熱議點。

那么,國產算力中心構建究竟什么情況?背后支撐大模型訓練和推理的計算機系統現在都面臨著怎樣的難題?為什么包括ChatGPT在內的大模型時不時就會出現宕機的情況?

“為什么異地卡聯合訓練很難?數據從從北京到貴州需要5天,有了結果后再到上海又需要5天。”

12月13日,中國工程院院士鄭緯民教授在中科金主辦的《大模型技術與應用創新論壇》上帶來了一場信息密度極大的內容分享,既有干貨,也有一些有趣的猛料。

鄭院士表示,構建國產萬卡系統非常重要但難度也很大,真相非常殘酷——異構卡聯合訓練不如單一架構聯合訓練劃算,而異地卡聯合訓練效果同樣不佳。

此外,大模型完整的訓練和推理過程不止GPU算力那么簡單,還有很多的系統工作需要深入研究,比如存放訓練數據的硬盤、再比如數據預處理,有消息稱GPT4,1萬塊A100要訓練11個月,有5個月的時間都在做預處理

重要的是,對于中國國產而言,最大的難點之一還是在于國產計算系統的核心基礎軟件,生態還不夠。

鄭院士還分享了當紅大模型獨角獸月之暗面的AI產品Kimi的一些進展和研發經歷,他透露了初始時Kimi因為流量暴增宕機時,原來是“一死機就買(GPU)卡”,現在采取了Mooncake架構之后,就再也沒出現宕機的情況。

摘要如下:

  • 為什么算力產業快速發展,一是全面啟動東數西算,二是AI讓智能算力需求爆發。
  • 人工智能大模型生命周期五個過程,每個過程都需要大存儲、大算力。
  • 萬卡很重要,我們都希望有萬卡,但現在做得不太好,很難。
  • 異地卡、異構卡訓練效果非常差,暫時不要考慮。清華帶隊開發的“八卦爐“”是一個系統軟件,裝到卡里性能就會好了。如果效果好,可以少買30%的卡。

料還很多,話不多說。以下是鄭院士的演講全文:

1.大模型+,中國還是可以超過美國的

鄭緯民:謝謝魏所長,喻總和各位朋友,今天用25分鐘時間講講大模型訓練機理的計算機系統怎么樣了。

今年大模型有兩個特點,第一是分析基礎大模型進入多模態狀態,不光有文本,還有圖像、視頻,就是多種模式,多模態這是第一個特點。第二個特點,真的用起來。大模型+實際的東西,比如大模型+金融,大模型+醫療、大模型+汽車、大模型+智能制造、大模型+各行各業。

前幾年不是說大模型沒有用,也用了,但更多的是給它幾段話,讓它寫一個PPT,畫一幅畫出來,寫一篇文章出來。這也挺好的,但今年的應用真的是大模型跟國民經濟GDP,跟生活水平提高密切結合。我一直認為基礎大模型,我們的水平跟美國人比還是屬于差一點。他們比我們做得好。但“大模型+”這件事我們還是有希望超過美國的。

2.大模型生命周期的五個環節

大模型有五個過程,第一是數據獲取,大模型就是訓練數據,第一件事是把數據獲取起來,從哪里來?從世界各地。但取來的文件是小文件,小好,省硬盤,這是一個特點。但是個數多得不得了,數百億個文件。這些文件都放到硬盤里,但要記住放在硬盤的哪個位置里。一百億個文件有一百億個位置,我們一般叫源數據處理,也就是說像個目錄一樣,數百億個位置你要記住,對計算機來說比較麻煩,一臺計算機擱不下,那就兩臺、三臺、五臺、十臺。但隨著位置多了,找位置要找一會兒,怎么讓數據擱得下,找得快?這是數據獲取比較麻煩的事。所以最后結論是把數據拿來放到硬盤里,多得不得了。這是第一件事。

第二是數據預處理,數據已經拿來了,直接訓練就行了嗎?還不行。數據質量不高,格式不一樣,里面有廣告,有重復的,還有其他不喜歡的內容。數據質量不好怎么辦?預處理。把數據質量提高,重復的去掉,廣告去掉,數據質量越高,訓練結果越好。預處理這件事也很麻煩。有人統計,GPT4,1萬塊A100要訓練11個月,有5個月的時間做預處理,僅訓練之前的預處理就占了一半時間,非常長,成為訓練的瓶頸。如何使預處理速度快?實際上就是大數據處理,把大數據處理軟件做好很不容易。時間關系我不展開講怎么做了。數據質量好了,就可以做訓練了。

第三模型訓練。訓練需要很多算力,也需要很多存儲,做起來事情挺多的,要解決的問題很多。但是我只講一件事,假設10萬塊卡,平均一小時出錯,一出錯就要重來進行二次訓練,到第二小時又出錯,那就沒完沒了。過去做高性能的機器人都有一個辦法,假設一個小時左右出一次錯,我們怎么辦?開始訓練,訓練到40分鐘時,在出錯前主動停下來。把當時的硬件、軟件環境記到系統里,記到硬盤里去。記完以后繼續開始訓練,訓練到1小時左右出錯了,過去是從頭來,現在不用了,把剛才記在硬盤的東西拿出來,從這個地方開始訓練,這就比較簡單,我們過去都是這樣做的。但麻煩在哪呢?這個大模型訓練數據量特別大,40分鐘到了,主動把數據存到硬盤里,要存三個小時。一小時出一次錯,那就亂成一鍋粥,就不好辦了。所以如何把這件事最后10分鐘、20分鐘解決?要解決的問題挺多的。不管如何,訓練之后最終得到一個模型--基礎大模型。

第四是模型微調。不是已經訓練完了嗎?第三個過程出來我們叫基礎大模型,基礎大模型如果給醫院做醫療,還不怎么行。醫院數據訓練太小了,基礎大模型是基礎數據,打架的、看電影的、看小說的,醫院的模型太小。所以模型的微調就是第二次訓練,在基礎大模型的基礎上再訓練一次,訓練什么?醫院的數據。二次訓練叫微調,出來的模型叫醫院大模型。實際上你還可以繼續,第三次訓練。醫院大模型假如說用來看B超還不怎么行,怎么辦?在第二次訓練的基礎上,把B超的數據再訓練一次,出來就是B超大模型,由此還可以繼續下去。模型微調實際上是領域模型,第一次出來叫基礎大模型,第二次出來的叫領域、行業大模型,行業大模型還可以繼續細分下去,可以專門分為看肺的、看胃的,都可以做一次一次做下去。

最后是模型推理,推理的確是用的情況。五個過程都需要算力、存儲,都很費時間。     

3.國產支持大模型訓練的計算機系統現狀

現在做大模型的公司有三類。第一類是研發大模型,就是做大模型本身的。比如說百度、清華都有專門做大模型的。第二大模型+X,這就是做應用了。做大模型是基礎大模型,大模型+是結合產業,像中關村科金就是跟金融結合,大模型用在金融方面會做得很好。所以大模型+X是做應用的。第三支持大模型的計算機系統。比如1000塊卡,1塊萬卡,怎么聯(才能)讓推理、訓練很快等。

而當前支持大模型訓練的,大概是第三類公司。

第一種是買英偉達的GPU訓練,硬件性能好,編程生態好,大家都喜歡用。但問題是人家不賣給我們了,因此我們想辦法用國產的。高性能的芯片不賣我們,使得我們的人工智能走向本地化。

數據實地化,內容主題化,算力國產化。但國產的大家不愿意用,因為生態不好。什么是生態?假設你有一個軟件是基于英偉達寫的,現在英偉達用不了,要移植到國產系統,如果很容易那就是生態好,否則就是不好。新寫一個軟件,跟過去的寫法基本差不多這叫生態好,如果完全不一樣,要重新學,這就是生態不太好。

4.解決國產智能算力,需要造10個軟件

現在用國產,我們的生態不太好,我們想辦法要做好十個軟件:并行系統、編程框架、通信庫、AI編譯器、算子庫、編程語言、調度器、容錯系統、內存分配系統、存儲系統

比如,并行系統,現在不是1塊卡,而是1000塊卡、1萬塊卡,1塊卡訓練一百天,我們買100塊卡,一天就訓練完了。但中間要交換數據,交換一次是人家的90倍了,如果做得不好的話,100塊卡我們希望有100倍效能,只能做到3、4倍的效率。我們希望有70倍、80倍、90倍這就叫并行系統,想辦法接近100倍。做得不好,20倍。

再比如通信庫,1000塊卡、1萬塊卡要通信,怎么寫好?算子庫,寫一個矩陣軟件,最好不要寫,調用矩陣成本軟件,碰到什么就調用什么,這個庫要寫得多,寫得好。要有編譯器,國內會做編譯系統的特別少,龍舟系統,一個小時就出錯了,怎么才能繼續做下去?

由于時間關系,我不一一贅述。

5.清華帶隊打造“八卦爐”

清華大學帶著團隊做了十個軟件,學生起了名字叫八卦爐,實際上只做了七個,沒做成十個,(圖中)紫色的是清華做的,國內華為等很多公司,也做了相應的軟件,我們湊了10個,協調“八卦爐”,硬件裝到八卦爐里做訓練,就會比較好。

國產萬卡系統究竟怎么樣了?中國工程院院士鄭緯民:國產萬卡很重要,但也很難,異地卡聯合訓練不太可行-AI.x社區圖片

青島有一臺大機器叫神威,第一件事把“八卦爐”裝上訓練,三個大模型訓練,訓練出來的效能還是不錯的。

過去訓練一個大模型要投入幾十億,但現在我國有十四億超算系統,錢都是國家付的,有的機器還有一點富余,在那里訓練價錢是英偉達系統的六分之一。因為國內超算機器收費便宜,不像英偉達要把機器成本收回來還要賺錢。

所以在座各位如果要做大模型訓練,到青島的神威上做,六分之一的價格就夠

沐曦是上海做芯片的公司,我們把“八卦爐”裝到它的系統上,從算子效率、并行方案、和集群支持,三方優化后,平均性能提升30%,如果性能跟原來一樣,可以少買三分之一的卡

燧原也是做芯片的,前幾年的卡主要是做推理的。推理卡這件事也有存儲器,訓練完的參數擱到卡里的存儲器。推理過程中是一步步推理,中間的過程叫KV-catch,我們希望訓練完有參數,推理過程中的部署,KV-catch擱進去,這個東西擱不下性能就差。存儲大小取決于推理快慢。我們想了一個辦法,主機有存儲器,一般推理的時候主體的存儲器跟CPU不同時用,就可以把空出來的存儲器用起來。

摩爾芯片是一家北京的公司,存儲卡做得很不錯了,我們把八卦爐裝上,性能也取得了很大的提高。

(劃重點,這里有一個猛料:月之暗面之前的宕機問題是如何解決的。)

Mooncake是Kimi幕后做大模型推理架構的,也是清華大學計算機系畢業的小伙子(楊植麟)在做。數據更多、模型更大,更長的上下文窗口肯定效果更好。它支持200萬字的上下文,很多人都喜歡用它。

Kimi剛推出的時候一死機就買卡,買了五次卡還死機。最后我們想了一個辦法,更高推理負載意味著要買更多的推理卡,但推理卡主要是存儲器不夠,用的人多了,就要擴大,這件事也麻煩。

國產萬卡系統究竟怎么樣了?中國工程院院士鄭緯民:國產萬卡很重要,但也很難,異地卡聯合訓練不太可行-AI.x社區圖片

我們想了一個辦法,一篇文章,第一個用戶說總結一下這篇論文,第二個用戶說這篇論文關鍵創新是什么,第三個用戶說有哪些相關研究,第四個用戶問這篇文章可以進一步探索什么。如果四個用戶是獨立的,每個用戶都要獨立占用資源。用戶可能有幾萬個,以前都是獨立的,現在把用戶公共部分提煉出來,省了很多卡。

Mooncake以后就沒有再死過機,把存儲器好好用,也可以省很多卡。

6.兩點看法:關于國產萬卡系統和異地卡聯合訓練

第一點,構建國產萬卡系統很重要也很難。人工智能需要越多的卡越好,萬卡系統要做,但是很難。首先,因為人家不賣給我們了,只能建國產一萬塊卡。

其次,什么叫好?一萬塊卡建完以后,大家基本都喜歡用,而且要基本好用,達到這個目的非常難。

現在建的卡有多少用戶喜歡用?第一塊卡是A公司的,第二塊卡是B公司的,第三塊卡是C公司的,一起用效果極差。不要用這種方式,少弄一點研究一下可以。如果是做高性能計算,最初買Intel芯片1000個,后來出新芯片了,又買了1000個,新芯片、老芯片各有1000個,軟件不用改,就可以轉起來。但前1000個芯片本事小一點,后1000個芯片本事大一點。

一個任務來了,分成2000份,還要記得給其中1000個芯片分小一點的任務,另外1000個芯片分大一點的任務,這還是靜態的。如果是動態的,你怎么分?

這就是木桶效應,有的板長,有的板短,整個桶裝多少水是由短板決定的,新板子再長也沒有用。所以1000個老CPU和1000個CPU合起來,性能比2000個老CPU性能還低一點,為什么要做這件事?

第二點,異構卡聯合訓練,效果不太好。現在加上異構卡,就更難了。靜態的任務,我們都不會合在一起做,中國人不做,美國人也不做,因為不合算。此外,異地卡,為什么更難,因為數據從北京傳到貴州,5天才能到,怎么訓練?貴州做出來結果送到上海,又要5天,怎么做?異構卡、異地卡訓練效果都不好。錢少的人不需要做,錢多的人可以試試。

謝謝大家!

本文轉載自??51CTO技術棧??,作者:言征

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-12-17 10:33:02修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品一区国产 | 日韩在线一区二区三区 | 久久久久久免费免费 | 罗宾被扒开腿做同人网站 | 欧美中文字幕 | 午夜一区二区三区 | 国产99久久精品一区二区永久免费 | 中文字幕国产视频 | 黄色免费av | 亚洲一区成人 | 99精品观看 | 欧美精品二区 | 99re在线视频 | 黄a大片| 人人射人人草 | 日韩成人一区 | 国产在线观看一区二区 | 色狠狠一区 | 亚洲欧洲精品一区 | 日韩精品视频在线 | 国产精品一区二区三区免费观看 | 欧美一区二区精品 | 国产在线观看一区二区 | 国产清纯白嫩初高生视频在线观看 | 精品亚洲一区二区三区四区五区 | 亚洲一级毛片 | 欧美日韩国产精品一区二区 | 久久久影院 | 欧美在线观看一区 | 亚洲精品国产精品国自产在线 | 国产高清免费视频 | 日本 欧美 国产 | 日韩免费三级 | 久久一| 亚洲一区免费在线 | 国产精品久久久久久久久久尿 | 国产999精品久久久影片官网 | av午夜电影| 日韩一区二区三区在线 | 色网在线看 | 日韩精品免费在线观看 |