成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產開源模型標桿大升級,重點能力比肩ChatGPT!書生·浦語2.0發布,支持免費商用

人工智能
?Base版本是2.0中新增加的版本,它是標準版InternLM2 在進行能力強化前的版本,更加基礎、可塑性也更高,因此更適合做探索研究。標準版InternLM2是在Base基礎上,對多個能力進行強化。它的評測成績更好,同時保持了很好的通用語言能力,適合大部分應用。

1月17日,新一代大語言模型書?·浦語2.0(InternLM2)正式發布并開源。

2種參數規格、3種模型版本,共計6個模型,全部免費可商用。

它支持200K超長上下文,可輕松讀200頁財報。200K文本全文范圍關鍵信息召回準確率達95.62%。

圖片

不借助任何外部工具,內生數理能力超過ChatGPT。配合代碼解釋器,可達到和GPT-4相仿水平。

圖片

同時還帶來工具多輪調用、更高共情等能力。

據了解,這些都得益于書生·浦語2.0在基礎建模能力上完成大幅升級,語料質量更高、信息密度更大。

所以,書生·浦語2.0帶來哪些升級?又是如何做到?

上海AI實驗室領軍科學家林達華教授,向我們披露了背后機密。

重點能力比肩ChatGPT

書生·浦語2.0共包含2種參數規格:7B和20B。

7B面向輕量級研究和應用,20B綜合性能更強可支持更復雜的使用場景。

每個規格中包含3個模型版本。

  • InternLM2-Base
  • InternLM2
  • InternLM2-Chat

Base版本是2.0中新增加的版本,它是標準版InternLM2 在進行能力強化前的版本,更加基礎、可塑性也更高,因此更適合做探索研究。

標準版InternLM2是在Base基礎上,對多個能力進行強化。它的評測成績更好,同時保持了很好的通用語言能力,適合大部分應用。

Chat版本在Base基礎上經過SFT和RLHF,在對話能力上進行加強,具有很好的指令遵循、共情、調用工具等能力。

具體能力方面,相較于上一代,InternLM2核心加強了基礎語言建模能力。

可以看到兩代模型在大規模高質量驗證語料上的loss分布,第二代分布整體左移,表明語言建模能力實質性增強。

圖片

由此下游任務實現全方位提升,包括:

  • 有效支持200K tokens超長上下文
  • 支持復雜智能體搭建、工具多輪調用
  • 內生數理能力超越ChatGPT
  • 綜合性能處于同規模開源模型領先水平

InternLM2現在有效支持20萬字超長上下文,同時保持很高的信息召回成功率,相較于上一代提升明顯。

圖片

對InternLM2進行“大海撈針”實驗,通過將關鍵信息隨機插入一段長文本的不同位置構造問題,測試模型是否能從長文本中提取關鍵信息。

結果顯示,InternLM2-Chat召回準確率始終保持在高位,16K以內的平均準確率達到 95.65%。

圖片

在實際場景中,InternLM2可以處理長達3個小時的會議記錄、212頁長的財報內容。

圖片

內生計算能力也有大幅提升。

InternLM2在不依靠計算器等外部工具的情況下,可進行部分復雜數學題的運算和求解。

100以內數學運算上可做到接近100%準確率,1000以內達到80%準確率。

圖片

如果配合代碼解釋器,20B模型已可以求解積分等大學級別數學題。

圖片

工具調用方面,基于更強和更具有泛化性的指令理解、工具篩選與結果反思等能力,InternLM2可更可靠地支持復雜智能體搭建,支持工具進行有效多輪調用、完成復雜任務。

圖片

綜合性能方面,InternLM2在推理、數學、代碼方面表現突出。

不僅相較于上一代提升明顯,而且在標準測評集上,部分指標已經超越ChatGPT

圖片

比如InternLM2-Chat-20B在MATH、GSM8K上,表現都超過ChatGPT。在配合代碼解釋器的條件下,則能達到和GPT-4相仿水平。

圖片

在AGIEval、 BigBench-Hard(BBH)等對推理能力有較高要求的評測上,新一代20B模型的表現優于ChatGPT。

圖片

同時InternLM2還和其他開源模型進行了全方位性能對比。

對比規格相近基座模型和對話模型,結果如下:

6B-7B基座模型對比

圖片

13B-20B基座模型對比

注:Mixtral-8x7B每次推理會激活約 13B 參數,而且這個模型近期也備受關注,因此其表現也列在此處作為參考。

圖片

6B-7B對話模型對比

圖片

13B-20B對話模型對比

圖片

從各項數據來看,InternLM2已經完成了全方位升級,給開源社區帶來了“ChatGPT級別”的大模型選擇。

那么它是如何做到的?技術上做了哪些創新?

核心在于提升數據質量

和許多大模型迭代升級的路線不同,InternLM2并沒有卷參數規模,而是把重點放在了數據方面。

上海AI實驗室領軍科學家林達華教授介紹,這是出于整體策略的考量。

提煉出一版非常好的數據后,它可以支持不同規格模型的訓練。所以首先把很大一部分精力花在數據迭代上,讓數據在一個領先的水平。在中輕量級模型上迭代數據,可以讓我們走得更快。

為此,上海AI實驗室研發了新一代數據清洗過濾體系,主要工作有3方面:

  • 多維數據價值評估
  • 高質量語料驅動的數據富集
  • 有針對性的數據補齊

首先在數據價值評估上,基于語言質量、信息密度等維度對數據價值進行綜合評估與提升。比如研究團隊發現,論壇網頁上的評論給模型能力帶來的提升非常有限。

所以團隊利用高質量語料的特征從物理世界、互聯網以及語料庫中進一步富集更多類似語料。

這樣可以引導種子數據去匯聚真正有知識量的數據,加大它們的比重。

最后再針對性補充語料,重點加強世界知識、數理、代碼等核心能力。

為了打造新一代數據清洗體系,研究團隊訓練了三位數的模型數量。因為體系每一次迭代,都起碼需要訓一個7B規模上的大模型做驗證。

在新一代數據清洗技術的加持下,只使用約60%的訓練數據,即可達到上一版數據訓練1T tokens的性能表現

圖片

另外,為了避免數據污染導致評測結果失真,InternLM2通過更嚴謹的訓練集構建流程,把各測試集排除在外,同時通過min-hash去重,去掉訓練語料中和測試集接近的部分。

當然,InternLM2不僅關注模型基座能力,也基于當下應用趨勢需求,針對一些下游任務能力做提升。

比如近來很火的超長上下文趨勢,林達華教授介紹工具調用、數理推理等場景都需要更長的長下文窗口。

所以InternLM2通過拓展訓練窗口大小和位置編碼改進,并找到足夠長且高質量、有結構以來關系的數據做訓練,同時優化訓練系統,將上下文窗口支持延長到了20萬tokens。

在大模型對話體驗方面,InternLM2采用Online RLHF,對獎勵模型和對話模型進行三輪迭代更新,在每一輪更新中對前一輪模型更新偏好數據和訓練prompt。

在獎勵模型訓練和PPO階段都平衡地采用各類prompt,使得模型在安全性進一步提升的情況下,對話的主觀體驗也顯著提升。

值得一提的是,研究團隊同步開源了InternLM2-Chat僅SFT和SFT+RLHF的權重,供社區分析對比RLHF前后模型的變化。

圖片

總結來看,對于InternLM2的升級迭代,上海AI實驗室核心關注模型基座能力,同時還結合大模型應用趨勢的需求,針對部分下游任務做重點提升。

在快速演進的趨勢里,這種清晰的思路很難得。

它需要團隊對技術有深入理解、對趨勢有準確判斷,能大幅提升大模型開發效率,加速模型迭代升級。

而上海AI實驗室能夠得出如此思路,與其大模型初心有關。

做真正高質量的開源

2023年世界人工智能大會上,書生·浦語大模型正式開源。

通過書生·浦語的高質量全方位開源開放,我們希望可以助力大模型的創新和應用,讓更多的領域和行業受惠于大模型變革的浪潮。

圖片

梳理來看,過去7個月里書生·浦語的一系列開源工作,徹底且全面。

范圍覆蓋通用大模型、專項任務大模型(書生·浦語靈筆)、全鏈條工具體系(貫穿數據、預訓練、微調、部署、評測、應用)、多模態預訓練語料(書生·萬卷)等。

為什么要這樣做?

上海AI實驗室領軍科學家林達華教授,給出了兩方面原因。

直接原因是大模型應用趨勢馬上到來,開源高質量基座大模型能縮短落地過程的中間鏈條。

林達華教授分析,無論是公眾還是商業領域,對大模型的耐心是有限度的。2024年大家必然會全力把大模型推向真正的應用落地。

做高質量基礎大模型,能夠讓基礎大模型在一個具體場景上做到應有水平,變得更方便、更迅速。

更加根本的底層原因在于,中國需要自己的高質量開源大模型。

大模型趨勢由ChatGPT開啟,但第二波高潮來自Meta開源LLaMA。它讓更多個人、機構、企業能進入到大模型領域,發展出豐富的應用,給整個技術生態帶來深刻影響。

但由于LLaMA在中文理解方面存在局限、以及合規性等方面的考慮,國內需要一個中文原生的高質量開源基座。

綜合各方面因素,學術界力量更能勝任這件事。

開源基座大模型不僅要保證質量高,更關鍵是要長期可持續。企業也能做開源,但是它天生存在商業訴求、關注點會逐漸從底層技術轉向商業應用,這本身無可厚非,所以需要上海人工智能實驗室能在這里發揮自己的價值。

加之學術圈無需考慮構建商業壁壘,因此讓開源更加徹底。

林達華教授介紹,上海AI實驗室在做大模型時會考慮應用方面需要的能力,與合作伙伴共同打造具有開創和示范性質的創新應用,而不是打造To C的商業化應用。。

比如近期升級發布的醫療多模態基礎模型群“浦醫2.0”。它由上海AI實驗室與上海交通大學醫學院附屬瑞金醫院等合作伙伴聯合發布,旨在為“跨領域、跨疾病、跨模態”的AI醫療應用提供能力支持。目前已經建設了智能影像診斷、數字病理科建設、數字人虛擬手術、智慧臨床決策、創新醫學科研五大應用場景。

這項工作同樣主打開源。最新升級中不僅加入了多個領先醫學大模型,新增5個開源數據集、新增評測模塊等,實現了醫療大模型群“產、學、研、用、評”一站式開源。

圖片
△浦醫2.0中的醫療基礎模型涵蓋病理、超聲、CT、MR、心電等多個醫療領域

透過這些實際開源腳步,即可洞察到當下趨勢正在發生哪些轉變,以及上海AI實驗室如何理解趨勢。

2024年被業內視為大模型應用落地元年。開年伊始,上海AI實驗室的動作更加聚焦應用層面。

圖片

林達華教授認為,2024年大模型領域的關鍵是,誰能找到大模型最具有可持續應用價值的場景。

這個應用價值可能并不是我們常見的那種交互形態,比如聊天APP。

我手機上裝了十幾個大模型對話APP,平均使用時長只有2個小時,因為它并不是我特別需要的應用。

所以對于整個業界來說,怎樣找到一個大家公認的、真正有用的場景,是一個比較大的挑戰。

一旦找到,大模型技術革命就會真正在歷史上沉淀下來。”

而想要走到這一步,底層基礎大模型是最根本、最關鍵的影響因素。

回歸到技術發展上,林達華教授對于2024年也給出了一些預測和判斷:

  1. 大模型基礎能力會逐漸收斂,之后模型間的關鍵區別在于誰的質量更高。
  2. 目前大模型領域任何趨勢熱度都不會超過3個月,比如超長上下文能力很快會成為各家大模型標配。
  3. 24年上半年會涌現一批開源多模態大模型。
  4. 當下MoE還只是初級設計,發展到最高效設計仍需一段時間。
  5. 24年國內很有希望出現比肩GPT-4的開源大模型。

總之,2024年,很有可能迎來開源大模型的高潮。

這不,開年第一槍已經由上海AI實驗室打響了。

書生·浦語2.0開源鏈接:https://github.com/InternLM/InternLM。

免費商用授權許可申請:https://wj.qq.com/s2/12725412/f7c1。

責任編輯:姜華 來源: 量子位
相關推薦

2024-01-17 13:59:00

AI開源

2009-03-04 15:16:55

C#SharpDevelo.net

2023-04-13 15:32:09

數據集開源

2009-04-01 08:53:34

JavaRebelJVM插件

2009-03-30 09:16:16

JBossSOAEclipse

2010-07-01 09:25:18

Lift 2.0Web應用框架Scala Lift

2013-05-13 09:59:31

ruby

2013-02-26 09:36:57

RubyRuby 2.0

2011-07-13 15:09:48

PHP

2012-02-16 09:15:48

JavaJActor

2023-10-12 23:38:27

國產免費ChatGPT

2012-10-25 10:14:49

AppCan跨平臺

2013-07-25 16:40:58

Android 4.3改變推送

2012-02-29 10:54:21

JavaPlay Framew

2009-05-20 16:28:47

LinuxMusix2.0 Beta 1

2011-10-18 15:00:46

Perl

2011-03-30 14:29:13

QuartzJava

2009-06-10 08:43:33

Linux桌面發布

2009-11-30 10:44:37

Debris LinuLinux
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产黄色在线 | 91精品国产综合久久婷婷香蕉 | 午夜精品一区 | 91精品国产高清一区二区三区 | 国产极品粉嫩美女呻吟在线看人 | 国产精品亚洲第一区在线暖暖韩国 | 国产精品久久av | 激情六月丁香婷婷 | 久久久久国产一区二区三区 | 久久久久久久亚洲精品 | 999久久久国产精品 欧美成人h版在线观看 | 国产日韩欧美一区二区在线播放 | 成人精品高清 | 亚洲人成网亚洲欧洲无码 | 国产美女一区二区 | 国产精品日韩一区二区 | 日韩在线看片 | 久久久久成人精品 | 欧美在线 | 999久久久久久久久6666 | 污视频免费在线观看 | 亚洲欧美国产一区二区三区 | 亚洲一区二区三区在线 | 91精品国产综合久久久动漫日韩 | 久久噜噜噜精品国产亚洲综合 | 欧美日韩国产一区二区三区 | 精品国产欧美一区二区三区成人 | 日韩中文不卡 | 日日草夜夜草 | 黄色一级免费观看 | 国产成人精品午夜视频免费 | 99久久99 | 久久国产精品亚洲 | 色欧美综合 | 日本久久久久久 | 成人午夜在线 | 成人国产在线视频 | 欧美精品一区二区三区在线 | 91免费在线看 | 久久久久久久av麻豆果冻 | 亚洲日本成人 |