成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產(chǎn)大模型推理能力已超GPT-3.5!沖進OpenAI評測榜第一梯隊

人工智能 新聞
就在9月16日,國產(chǎn)大模型在權(quán)威推理評測集GSM8K中,首次達到了80%正確率,大幅領(lǐng)先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

OpenAI開源的數(shù)學(xué)數(shù)據(jù)集,中國廠商新成績一舉沖到最前列!

就在9月16日,國產(chǎn)大模型在權(quán)威推理評測集GSM8K中,首次達到了80%正確率,大幅領(lǐng)先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

而且這家廠商在大模型榜單上刷新全球紀錄,已經(jīng)不是第一次了。

它背后的公司在風(fēng)起云涌的大模型技術(shù)江湖中,也頻頻被提及,越來越受關(guān)注。

不賣關(guān)子,它正是天工大模型,由昆侖萬維打造。

怎么做到的?具體來看。

大模型推理能力Benchmark躋身前列

天工大模型這次一戰(zhàn)成名的,是大模型數(shù)學(xué)推理能力評測基準,GSM8K

GSM8K由OpenAI發(fā)布,是一個涵蓋8500個小學(xué)水平高質(zhì)量數(shù)學(xué)題的數(shù)據(jù)集,設(shè)計原則有四:

高質(zhì)量、高多樣性、中等難度和自然語言解決方案。

所以這家伙現(xiàn)在一般被用做測試各家大模型推理能力的Benchmark。

上個月,微軟和中國科學(xué)院聯(lián)合發(fā)布了一項關(guān)于WizardMath的研究結(jié)果,主要在GSM8K和另一個常見數(shù)學(xué)基準上測試了市面上主流開閉源大模型的性能。

閉源模型上,拿下最高分的是GPT-4,正確率92%;GPT-3.5的正確率為57.1%。

開源模型這邊,不同參數(shù)規(guī)模的LLaMA-2最高正確率56.8%,最高分則被微軟的WizardMath-70B拿走,正確率81.6%。

圖片

那么,天工大模型的成績怎么樣?

正確率80%。

這個成績,比目前最強數(shù)學(xué)垂域開源模型的WizardMath-70B低了1.6%,與ChatGPT、540B參數(shù)的PaLM-2幾乎持平。

并且大幅超過GPT-3.5和各個規(guī)模的LLaMA2。

同時在小米公開的中文數(shù)學(xué)測試集Cmath上,天工大模型平均準確率為76.8%(ChatGPT 74.8%)。

為了做個驗證,按照慣例,天工大模型和GPT-3.5面臨了來自GSM8K測試集的英文同題考驗。

Round one

:每天,Wendi給每只雞喂三杯混合雞飼料,其中包括種子、黃粉蟲和蔬菜,以幫助它們保持健康。她分三餐給雞喂食。上午,她給雞群喂15杯飼料。下午,她再給雞喂25杯飼料。

如果Wendi有20只雞,那么一天的最后一餐,她需要給雞喂多少杯飼料?

天工大模型答,一天的最后一餐中要喂20杯飼料,才能確保雞崽子們一天都吃飽。

圖片

GPT-3.5答,Wendi需要在一天的最后一餐中給雞崽子們喂21杯飼料。

OK,這一局,GPT-3.5輸了。

Round two

問:道費爾姐妹帶著從動物收容所領(lǐng)養(yǎng)的7只小貓開車回家時,媽媽打來電話,告訴她們家里的兩只貓剛生了小貓。媽媽說,Patchy貓貓生了三倍于被領(lǐng)養(yǎng)數(shù)量的小貓,而另一只Trixie貓貓生了12只。

現(xiàn)在道費爾一家一共有多少只小貓?

天工大模型答,當(dāng)然是有40只小貓啦~

GPT-3.5答,道費爾一家現(xiàn)在共有33只小貓。

看來第二局還是天工大模型贏了。

Round 3

:巨龍高坐在法爾博山上,向1000英尺范圍內(nèi)的任何東西瘋狂噴火。波莉可以將壓制巨龍的武器投擲400英里,但當(dāng)她拿著藍寶石時,能比不拿寶石時把標(biāo)槍扔得遠三倍。

如果拿著寶石,波莉能站在龍焰射程之外多遠的地方,用金標(biāo)槍擊中龍?

天工大模型給出的解題思路如下,并且生成答案為200英尺。

GPT-3.5給出的解題思路也擺在這,最后答案也是200英尺。

這次二位打成了平局。

但是可以看到,相比GPT-3.5,天工大模型的解題思路更簡單直接,解題步驟也更少更短。

一般來說,目前主流大模型們最近不太流行公開評測結(jié)果,但昆侖萬維放話了:

雖然現(xiàn)在還是內(nèi)測階段,但天工大模型這次不僅對外公布了評測結(jié)果,還宣布后續(xù)會部署上線基座,供用戶體驗。

更重要的是,天工大模型允許研究人員、開發(fā)者申請API,對上述結(jié)果進行驗證

PS申請方法:

提供“姓名”“手機號”“所屬機構(gòu)/單位”,發(fā)送至官方郵箱neice@kunlun-inc.com進行申請。

若通過,三個工作日內(nèi)將收到回復(fù)郵件,內(nèi)含測試API及相關(guān)信息。

(截止時間為9月27日0點)

多個榜單躋身前列

除了GSM8K,另一個推理評測基準HumanEval,以及兩個通識評測基準MMUL、C-Eval上,天工大模型也有出色表現(xiàn)。


根據(jù)公開測試數(shù)據(jù)搜集整理

HumanEval同樣出自O(shè)penAI,是OpenAI為了評估Codex模型的有效性而創(chuàng)建的數(shù)據(jù)集。

通過這個數(shù)據(jù)集,研究人員可以對Codex模型進行評估,并了解其在代碼生成方面的準確性和效果。

在這個數(shù)據(jù)集上,天工大模型成績是37.2%。

MMLU是UC伯克利等打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會科學(xué)等領(lǐng)域的57個科目。

其主要目標(biāo),是對模型的英文跨學(xué)科專業(yè)能力進行深入測試。天工大模型的成績是65%。

C-EVAL評測基準由上海交大、清華以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是一個面向中文語言模型的綜合考試評測集,覆蓋了52個來自不同行業(yè)領(lǐng)域的學(xué)科。

天工大模型的得分為65,超過了GPT-3.5的54.4的成績。

成績亮眼的天工大模型,發(fā)布在今年4月。

其AI生成能力可滿足文案創(chuàng)作、知識問答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。

4月發(fā)布,9月能取得醬紫的成績,昆侖萬維是怎么飼養(yǎng)天工大模型這匹黑馬的?

先拿模型實力來說話。

這是一個雙千億大模型(指天工擁有千億預(yù)訓(xùn)練基座模型和千億RLHF模型。),目前版本最高支持1萬字以上文本對話,實現(xiàn)20輪次以上用戶交互。

二者的“強強聯(lián)手”之下,天工大模型的優(yōu)勢便凸顯了出來。

而模型層之外,為大模型積攢實力的無外乎算法、算力、數(shù)據(jù)三大件。

算法層方面,天工大模型也有自己的秘籍。

通常來說,市面上大模型們普遍采用Transformer架構(gòu)。在此基礎(chǔ)上,天工團隊首次引入了蒙特卡洛搜索樹算法(AlphaGo背后也是這算法)

圖片

再說天工大模型背后的算力,基于中國最大的GPU集群之一。

強勁算力鼎力支持的,是天文數(shù)字版的數(shù)據(jù)量——按照借助“開源力量”的策略,天工從數(shù)十萬億的數(shù)據(jù)中,最終清洗、篩選出了近3萬億單詞的數(shù)據(jù)。

現(xiàn)在,天工大模型在推理、通識多個榜單開花,可以想見因為背后算力、算法、數(shù)據(jù)扎實儲備,天工大模型擁有的已經(jīng)不是模型規(guī)模優(yōu)勢,技術(shù)創(chuàng)新和推理性能方面,也有了新突破。

國產(chǎn)大模型繞不過的狠角色

其實,推理能力大幅超過GPT-3.5和LLaMA2,已經(jīng)不是昆侖萬維攜天工大模型第一次拿成績炸場。

不久之前,天工大模型多模態(tài)團隊的Skywork-MM用了大約50M的圖文數(shù)據(jù),以遠小于其他大模型的數(shù)據(jù)量(>100M),登頂了多模態(tài)榜單。

圖片MME感知榜第一,認知榜第二,總榜第一

昆侖萬維另一則引得眾人矚目的新聞,是AI大牛顏水成的加入。

他出任天工智能聯(lián)席CEO、2050全球研究院院長,將在新加坡、倫敦、硅谷三地建立2050全球研究院的研究中心,并逐步開展幾個領(lǐng)域的研究:

  • 下一代Foundation Model的基礎(chǔ)研究和研發(fā);
  • Agent的研發(fā)和智能體進化的研究;
  • 生物智能等前沿技術(shù)領(lǐng)域的探索。

圖片

顏水成道出加盟昆侖萬維的原因:

在通用人工智能領(lǐng)域,從研究、研發(fā)到產(chǎn)品是完整的鏈條,缺一不可,只有將三者完全打通,研究才能發(fā)揮最大價值。

在國內(nèi),能將研究、研發(fā)、產(chǎn)品三線合一的平臺少之又少,昆侖萬維布局了AI大模型、AI動漫、AI社交、AI游戲、AI搜索和AI音樂六大方向,同時昆侖萬維的核心業(yè)務(wù)面向全球市場,其能力矩陣和生態(tài)系統(tǒng)非常具有想象空間。

大模型潮流,浩浩蕩蕩。

今年以來國產(chǎn)大模型的發(fā)展勢頭迅猛,吸引越來越多的人才加入其中,由此助力各家大模型不斷地迭代升級,涌現(xiàn)出更強大的能力,適配更廣泛的應(yīng)用場景。

昆侖萬維在大模型的變革中,戰(zhàn)略重視,動作頻頻,而且也有業(yè)務(wù)場景。

可以不夸張地說一句,昆侖萬維和它家的天工大模型,已經(jīng)是大模型江湖中,一個繞不過去的狠角色了。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-13 10:05:00

2021-07-28 15:50:47

數(shù)字化

2024-07-19 09:26:12

2023-02-10 13:30:18

AI人工智能

2015-09-25 10:20:18

華三

2024-04-19 10:39:35

2015-11-04 10:55:52

馬云batatm

2020-07-30 14:53:17

云計算

2018-04-10 15:44:28

華為云服務(wù)網(wǎng)絡(luò)技術(shù)

2023-07-10 15:22:29

OpenAIGPT-3.5

2023-07-22 13:09:51

模型開源

2024-06-19 11:45:34

2020-09-27 12:43:35

金融科技浙大螞蟻

2017-12-19 10:51:54

IBMOracle云服務(wù)

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2011-02-11 11:47:09

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美成人精品一区二区男人看 | 妞干网福利视频 | 一区二区不卡视频 | 嫩草研究影院 | 精品国产99| 久久精品国产一区二区电影 | 欧美激情一区二区三区 | 亚洲精品乱码久久久久久9色 | 成人毛片在线视频 | 国产成人精品高清久久 | 亚洲精品一区中文字幕乱码 | 毛片国产 | 国产精品视频偷伦精品视频 | 91精品国产综合久久久久久 | 亚洲国产激情 | 九九九视频 | 国产成视频在线观看 | 国产在线精品一区二区三区 | 综合色在线 | 欧美亚洲视频 | 亚洲福利网站 | 毛片毛片毛片毛片 | 日韩在线免费 | 亚洲 欧美 在线 一区 | www.日本在线观看 | 久久久久久美女 | 免费在线观看一区二区 | 日韩午夜在线播放 | 狠狠干天天干 | a级片在线观看 | 国产丝袜一区二区三区免费视频 | 午夜激情免费视频 | 精品一区国产 | 亚洲欧洲精品一区 | 国产精品久久久久久久久久久久冷 | 久久精品男人的天堂 | 欧美电影免费观看 | 国产一区二区日韩 | 91精品国产91久久综合桃花 | 亚洲国产精品视频一区 | 国产91中文|