20B量級(jí)大模型性能媲美Llama2-70B！完全開源，從基座到工具全安排明白了

作者：新智元 2023-09-22 09:06:00

國產(chǎn)模型開源紀(jì)錄，又被刷新了！上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開源的InternLM-20B，竟然能和Llama2-70B打個(gè)平手？

就在剛剛，國內(nèi)開源模型參數(shù)量紀(jì)錄，又被刷新了！

9月20日，上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)，正式開源了200億參數(shù)的InternLM-20B模型。

項(xiàng)目地址：https://github.com/InternLM/InternLM

魔搭社區(qū)：https://modelscope.cn/organization/Shanghai_AI_Laboratory

這次的200億參數(shù)版書生·浦語大模型，可以說是「加量不加價(jià)」，參數(shù)量還不到三分之一，性能卻可以劍挑當(dāng)今開源模型的標(biāo)桿——Llama2-70B。而當(dāng)前主流的開源13B模型們，則在所有維度上都被InternLM-20B甩在身后。

不僅如此，面向大模型研發(fā)與應(yīng)用的全鏈條工具體系也同時(shí)升級(jí)。

從開源模型本身，再到全鏈條的開源工具，這一次，上海AI實(shí)驗(yàn)室把自身研發(fā)大模型所沉淀的壓箱底的寶藏，全都拿了出來，希望幫助廣大研究者、機(jī)構(gòu)、社會(huì)從業(yè)者，都能以極低成本和門檻，參與大模型帶來的這場技術(shù)革命。

性能「同級(jí)領(lǐng)先」，門檻「開箱即用」，InternLM-20B，就是大模型走向千行百業(yè)的催化劑和新支點(diǎn)！

這股大模型的浪潮，將惠及每個(gè)人。

我們用的，全部開源

眾所周知，在大模型的整個(gè)研發(fā)體系中，有串在一起的多個(gè)環(huán)節(jié)，這是十分復(fù)雜的一套閉環(huán)。

如何用更規(guī)范的代碼方式去組織？拿到基座模型該怎么用？落地到應(yīng)用的一步步過程中，有哪些注意事項(xiàng)？到處都是問題。

在經(jīng)過日常工作中真正的實(shí)踐后，上海AI實(shí)驗(yàn)室的團(tuán)隊(duì)沉淀出來一套寶貴經(jīng)驗(yàn)。

現(xiàn)在，他們?yōu)榱朔睒s開源生態(tài)，干脆把模型從數(shù)據(jù)準(zhǔn)備，到預(yù)訓(xùn)練、部署，再到評(píng)測應(yīng)用，這整套流程中會(huì)涉及到的工具，全部開源了。

解密「獨(dú)家配方」

數(shù)據(jù)，之于大模型重要性，就好比生產(chǎn)的原材料，沒有動(dòng)力來源，無法驅(qū)動(dòng)智能AI系統(tǒng)運(yùn)轉(zhuǎn)。尤其，高質(zhì)量的數(shù)據(jù)更是大模型產(chǎn)業(yè)化的關(guān)鍵要素之一。

在收集上，不僅需要有效地過濾和清洗從網(wǎng)頁、書籍、專業(yè)報(bào)告論文等各種渠道中爬取的原始素材，還需要充分利用模型內(nèi)測用戶提供的反饋。

不過，要想讓LLM能夠獲取關(guān)鍵能力，比如理解、編程、邏輯推理，成為真正的「六邊形戰(zhàn)士」，更重要的是自己去構(gòu)建數(shù)據(jù)。

在這一方面，學(xué)術(shù)界的研究也是非常活躍，比如微軟「Textbooks Are All You Need」，通過構(gòu)建數(shù)據(jù)訓(xùn)練后的模型phi-1，能夠在基準(zhǔn)上取得相對(duì)領(lǐng)先優(yōu)勢。

就上海AI實(shí)驗(yàn)室團(tuán)隊(duì)來說，他們沒有選擇從單點(diǎn)方向去構(gòu)建數(shù)據(jù)，而是從「全維度」，對(duì)整個(gè)知識(shí)體系梳理后構(gòu)建語料。

因此，這些語料在知識(shí)和邏輯的密度上，是非常高的。

在大量的常規(guī)內(nèi)容中加入少量的「催化劑」，不僅可以更好地激發(fā)出LLM的關(guān)鍵能力，而且模型對(duì)于相關(guān)信息的吸收和理解也會(huì)更強(qiáng)。

用上海AI實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華的話來說，「從某種意義上來說，這里的1個(gè)token，可以等同于10個(gè)，甚至100個(gè)傳統(tǒng)token的效力」。

就算力方面，除了互聯(lián)網(wǎng)大廠坐擁著豐富的資源外，開源社區(qū)大部分的開發(fā)者很難獲取更多的算力。

「希望能夠有輕量級(jí)的工具，能夠把模型用起來」。這是上海AI實(shí)驗(yàn)室收到最多的社區(qū)反饋。

通過開源XTuner輕量級(jí)微調(diào)工具，用戶可以在8GB消費(fèi)級(jí)GPU上，用自己的數(shù)據(jù)就能微調(diào)上海AI實(shí)驗(yàn)室開源的模型。

此外，在模型應(yīng)用方向上，「聊天對(duì)話」依舊是模型非常重要的能力的一部分。

上海AI實(shí)驗(yàn)室還想突出一點(diǎn)是，大模型作為中央Hub，使用工具解決問題，類似于Code Interpreter的方式去調(diào)用工具。

同時(shí)，在這個(gè)過程中，大模型還能進(jìn)行自我反思，這便是LLM加持下智能體展現(xiàn)的巨大潛力。

林達(dá)華認(rèn)為，Agent會(huì)是一個(gè)長期發(fā)展非常有價(jià)值的需要去探索的方向。

最終智能體的世界，整個(gè)組織分工也會(huì)在不斷的升級(jí)和演進(jìn)，未來肯定是非常多的智能體的共同存在，有各自擅長的領(lǐng)域，相互之間會(huì)有很多技術(shù)能夠促進(jìn)它們之間的交流。

那么，此次工具鏈具體升級(jí)的地方在何處？

- 數(shù)據(jù)：OpenDataLab開源「書生·萬卷」預(yù)訓(xùn)練語料

數(shù)據(jù)上，書生·萬卷1.0多模態(tài)訓(xùn)練語料8月14日正式開源，數(shù)據(jù)總量超總量超過2TB，包含了文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分。

通過對(duì)高質(zhì)量語料的「消化」，書生系列模型在語義理解、知識(shí)問答、視覺理解、視覺問答等各類生成式任務(wù)表現(xiàn)出的優(yōu)異性能。

截止目前，已經(jīng)有近10萬的下載量。

- 預(yù)訓(xùn)練：InternLM高效預(yù)訓(xùn)練框架

預(yù)訓(xùn)練階段，InternLM倉庫也開源了預(yù)訓(xùn)練框架InternLM-Train。

一方面，深度整合了Transformer模型算子，使得訓(xùn)練效率得到提升，另一方面則提出了獨(dú)特的Hybrid Zero技術(shù)，實(shí)現(xiàn)了計(jì)算和通信的高效重疊，訓(xùn)練過程中的跨節(jié)點(diǎn)通信流量大大降低。

得益于極致的性能優(yōu)化，這套開源體系實(shí)現(xiàn)了千卡并行計(jì)算的高效率，訓(xùn)練性能達(dá)到了行業(yè)領(lǐng)先水平。

- 微調(diào)：InternLM全參數(shù)微調(diào)、XTuner輕量級(jí)微調(diào)

低成本大模型微調(diào)工具箱XTuner也在近期開源，支持了Llama等多種開源大模型，以及LoRA、QLoRA等微調(diào)算法。

硬件要求上，XTuner最低只需8GB顯存，就可以對(duì)7B模型進(jìn)行低成本微調(diào)，20B模型的微調(diào)也能在24G顯存的消費(fèi)級(jí)顯卡上完成。

XTuner為各類開源模型提供了多樣的微調(diào)框架

- 部署：LMDeploy支持十億到千億參數(shù)語言模型的高效推理

部署方面，LMDeploy涵蓋了大模型的全套輕量化、推理部署和服務(wù)解決方案。

它支持了從十億到千億參數(shù)的高效模型推理，在吞吐量等性能上超過了社區(qū)主流開源項(xiàng)目FasterTransformer，vLLM，Deepspeed等。

- 評(píng)測：OpenCompass一站式、全方位大模型評(píng)測平臺(tái)

評(píng)測部分，開源的大模型評(píng)測平臺(tái)OpenCompass提供了學(xué)科、語言、知識(shí)、理解、推理五大維度的評(píng)測體系。

同時(shí)，它還支持50+評(píng)測數(shù)據(jù)集、30萬道評(píng)測題目，支持零樣本、小樣本及思維鏈評(píng)測，是目前最全面的開源評(píng)測平臺(tái)。

- 應(yīng)用：Lagent輕量靈活的智能體框架

在最后的應(yīng)用環(huán)節(jié)，上海AI實(shí)驗(yàn)室團(tuán)隊(duì)將重點(diǎn)放在了智能體上，開發(fā)并開源了Lagent輕量靈活的智能體框架。

它能夠支持用戶快速地將一個(gè)大語言模型轉(zhuǎn)變?yōu)槎喾N類型的智能體，并提供典型工具為大語言模型賦能。

這套開源框架集合了多種類型的智能體能力，包括經(jīng)典的ReAct、AutoGPT和ReWoo等。

這個(gè)框架的代碼結(jié)構(gòu)不僅清晰，而且簡單。只用不到20行代碼，開發(fā)者就能創(chuàng)建一個(gè)屬于自己的智能體。

另外，Lagent支持包括InternLM，Llama，ChatGPT在內(nèi)的多個(gè)大模型。

在Lagent加持下，這些智能體能夠調(diào)用大語言模型進(jìn)行規(guī)劃推理和工具調(diào)用，并在執(zhí)行過程中及時(shí)進(jìn)行反思和自我修正。

國內(nèi)首發(fā)16k上下文，200億參數(shù)打平Llama2-70B

除了全套的大模型工具鏈外，上海AI實(shí)驗(yàn)室還全新開源了高達(dá)200億參數(shù)的InternLM-20B。

評(píng)測結(jié)果顯示，在同量級(jí)開源模型中，InternLM-20B是當(dāng)之無愧的綜合性能最優(yōu)。

- 超長上下文支持

首先，在語境長度上，InternLM-20B可以支持高達(dá)16K的上下文窗口。

如下圖所示，InternLM-20B閱讀了某知名咖啡品牌的長新聞后，能夠?qū)θ齻€(gè)提問做出準(zhǔn)確回答。

對(duì)于超級(jí)長篇的論文和報(bào)告，InternLM-20B也能準(zhǔn)確地提取摘要。

比如，輸入經(jīng)典的ResNet論文后，它立馬寫出了摘要，準(zhǔn)確概括了ResNet的核心思想和實(shí)驗(yàn)效果。

- 調(diào)用工具，自學(xué)成才

其次，在長語境的支持下，模型的能力被大大拓展，無論是工具調(diào)用、代碼解釋，還是反思修正，都有了更大的空間。而這也成了在InternLM-20B之上打造智能體的關(guān)鍵技術(shù)。

現(xiàn)在，InternLM-20B不僅可以支持日期、天氣、旅行、體育等數(shù)十個(gè)方向的內(nèi)容輸出，以及上萬個(gè)不同的API，而且還能過類似Code Interpreter的方式去進(jìn)行工具的調(diào)用。

與此同時(shí)，在這個(gè)過程中，它還能進(jìn)行反思修正，跟現(xiàn)實(shí)場景產(chǎn)生聯(lián)系。

在清華等機(jī)構(gòu)聯(lián)合發(fā)布的大模型工具調(diào)用評(píng)測集ToolBench中，InternLM-20B和ChatGPT相比，達(dá)到了63.5%的勝率，在該榜單上取得了最優(yōu)結(jié)果。

而且，InternLM-20B模型還展現(xiàn)出一定的零樣本泛化能力。即使模型在訓(xùn)練過程中并沒有學(xué)過一些工具，它竟然也能根據(jù)工具描述和用戶提問來調(diào)用工具。

如下圖所示，給它提供一些AI工具，它就可以自己進(jìn)行規(guī)劃和推理，完成用戶問題。

- 同量級(jí)全面領(lǐng)先

在多達(dá)50款各個(gè)維度的主流評(píng)測集上，InternLM-20B也一舉實(shí)現(xiàn)了同量級(jí)開源模型的綜合性能最優(yōu)。

與此同時(shí)，在平均成績上也明顯超越了規(guī)模更大的Llama-33B，甚至在部分評(píng)測中還能小勝Llama2-70B。

具體來說，InternLM-20B在MMLU、C-Eval、AGIEval綜合性學(xué)科評(píng)測中成績優(yōu)異，在同量級(jí)開源模型中處于領(lǐng)先位置。

尤其是在包含中文學(xué)科考試的C-Eval和AGIEval上，表現(xiàn)明顯超過了Llama2-70B。

在考驗(yàn)事實(shí)性知識(shí)的評(píng)測上，InternLM-20B全面超越了13B模型，并且能與Llama-33B一較高下。

但相比于Llama-65B或者Llama2-70B仍有一定差距。

在理解能力維度，InternLM-20B的表現(xiàn)更是突出，全面超越了包括Llama2-70B在內(nèi)的各量級(jí)開源模型。

推理，是考倒了不少模型的「攔路虎」，考驗(yàn)的是大模型真金白銀的本事，也很大程度上決定了模型是否能支撐實(shí)際應(yīng)用。

在下述四個(gè)推理測評(píng)集上，InternLM-20B的成績均超越了主流的13B開源模型，甚至已經(jīng)接近了Llama-65B的推理能力。

編程能力上，InternLM-20B也有了顯著提升。在HumanEval和MBPP兩個(gè)典型評(píng)測集上，接近了Llama2-70B。

注：上述截圖中的粗體為13B-33B量級(jí)范圍內(nèi)，各項(xiàng)最佳成績。

在HuggingFace最新公布的Open LLM Leaderboard評(píng)測榜單上，InternLM-20B在參數(shù)量60B以下基模型中平均成績領(lǐng)先，也超過了Llama-65B。

- 更安全的開源模型

最后，在價(jià)值對(duì)齊上，InternLM-20B也更加完善、更為安全。

如果你向它提出帶有偏見的問題，它就會(huì)立馬識(shí)別出其中的不安全因素，給出正確的價(jià)值引導(dǎo)。

大模型，從來都不是大廠的專利

大模型浪潮掀起后，我們需要關(guān)注的，不僅僅是在測評(píng)榜單上拔得頭籌，還有如何讓大模型從「AI皇冠上的明珠」，成為千行百業(yè)都可用的「全新生產(chǎn)力」。

縱觀歷史，真正引領(lǐng)時(shí)代的技術(shù)，不只是顛覆性的創(chuàng)新，更重要的，是做到低成本、低門檻、人人可用。但OpenAI、谷歌這樣的大廠是絕對(duì)不會(huì)把其中具體的細(xì)節(jié)公之于眾。

而這，正是上海AI實(shí)驗(yàn)室的初心之所在。

自6月首發(fā)以來，書生·浦語已經(jīng)完成了多輪升級(jí)，在開源社區(qū)和產(chǎn)業(yè)界產(chǎn)生了廣泛影響。

而且，除了把代碼在GitHub上開放、把模型放在HuggingFace和魔搭社區(qū)，上海AI實(shí)驗(yàn)室甚至每天都會(huì)派專人去看社區(qū)里的反饋，對(duì)用戶提問悉心解答。

此前，Meta的LLaMA模型開源，引爆了ChatGPT替代狂潮，讓文本大模型迎來了Stable Diffustion時(shí)刻。

就如同今天羊駝家族的繁榮生態(tài)，上海AI實(shí)驗(yàn)室的開源努力，必將給社區(qū)帶來不可估量的價(jià)值。

對(duì)于全球范圍內(nèi)活躍的開發(fā)者和研究者，書生·浦語會(huì)提供一個(gè)體量適中、但能力非常強(qiáng)的基座。

大部分企業(yè)，尤其是中小企業(yè)，雖然看到了大模型的趨勢，但是不太可能像大廠一樣花很大代價(jià)去購買算力，并且吸引最頂尖的人才。

實(shí)際上，從7月6號(hào)的人工智能大會(huì)開始，上海AI實(shí)驗(yàn)室就已經(jīng)在做全鏈條地做開源。比如XTuner能以非常輕量級(jí)的方式，讓用戶只用自己的一些數(shù)據(jù)，就能訓(xùn)出自己的模型。

不僅如此，一個(gè)團(tuán)隊(duì)把開源社區(qū)的問題、語料、文檔和XTuner模型結(jié)合，訓(xùn)練出了一個(gè)開源社區(qū)客服。這就是對(duì)開源社區(qū)實(shí)打?qū)嵉呢暙I(xiàn)。

甚至，上海AI實(shí)驗(yàn)室把自己的整個(gè)技術(shù)體系，都分享給了社區(qū)（也就是上文提到的全鏈條工具體系）。

全社會(huì)如此多的行業(yè)，如此多的企業(yè)，如此多的機(jī)構(gòu)和研發(fā)者，如果能實(shí)實(shí)在在把大模型的價(jià)值落地，將是非常重要的力量。

他們擁有無窮的創(chuàng)造力，唯一缺的就是資源。

而上海AI實(shí)驗(yàn)室的「雪中送炭」，必然會(huì)讓大模型在落地領(lǐng)域發(fā)揮出巨大的價(jià)值。

正如林達(dá)華所言——

作為實(shí)驗(yàn)室，我們能提供基礎(chǔ)模型以及將各行業(yè)的know-how融匯成數(shù)據(jù)、模型能力的一系列工具，并且將它們做得非常易用、教會(huì)更多人用，讓它們能在各個(gè)行業(yè)里開花結(jié)果。

全鏈條工具體系開源鏈接

「書生·萬卷」預(yù)訓(xùn)練語料：

https://github.com/opendatalab/WanJuan1.0

InternLM預(yù)訓(xùn)練框架：

https://github.com/InternLM/InternLM

XTuner微調(diào)工具箱：

https://github.com/InternLM/xtuner

LMDeploy推理工具鏈：

https://github.com/InternLM/lmdeploy

OpenCompas大模型評(píng)測平臺(tái)：

https://github.com/open-compass/opencompass

Lagent智能體框架：

https://github.com/InternLM/lagent

責(zé)任編輯：張燕妮來源：新智元

模型開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

20B量級(jí)大模型性能媲美Llama2-70B！完全開源，從基座到工具全安排明白了

我們用的，全部開源

國內(nèi)首發(fā)16k上下文，200億參數(shù)打平Llama2-70B

大模型，從來都不是大廠的專利

全鏈條工具體系開源鏈接