成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B,歪果仁:這中國大模型真香

人工智能 新聞
在發(fā)布一周年之際,阿里云通義千問大模型在閉源和開源領(lǐng)域都交上了一份滿意的答卷。

國內(nèi)的開發(fā)者們或許沒有想到,有朝一日,他們開發(fā)的 AI 大模型會像出海的網(wǎng)文、短劇一樣,讓世界各地的網(wǎng)友坐等更新。甚至,來自韓國的網(wǎng)友已經(jīng)開始反思:為什么我們就沒有這樣的模型?

圖片

圖片

這個「別人家的孩子」就是阿里云的通義千問(英文名為 Qwen)。在過去的一年里,我們經(jīng)常能夠在 X 等社交平臺上看到它的身影。這些帖子一般有兩個主題:通義千問又開源新模型了!通義千問新模型還挺好用!

還有人以通義千問為例,反駁中國在人工智能方面落后的說法。而且,這一反駁并非來自主觀感受。在最近的 HuggingFace 開源大模型排行榜 Open LLM Leaderboard 上,我們驚訝地發(fā)現(xiàn),剛剛開源的 Qwen1.5-110B 已經(jīng)登上了榜首,性能比 Llama-3-70B 還強。

圖片

部分開發(fā)者的實測體驗也佐證了這一結(jié)果。

要知道,這還只是 Qwen1.5 的實力。等到 Qwen 2.x 系列模型開源,我們還將看到更多驚喜。

這份驚喜已經(jīng)能從通義千問的新模型里看到端倪,即阿里云今天發(fā)布的新模型 —— 通義千問 2.5。在性能上,該模型在中文場景已經(jīng)趕超GPT-4 Turbo,成為地表最強中文大模型。

去年 3 月份,OpenAI 發(fā)布了 GPT-4。如今,通義千問 2.5 的發(fā)布表明,歷經(jīng)一年多追趕,國產(chǎn)大模型終于進入核心競技場,可與國外一流大模型一較高下。

這一過程的艱辛是能夠可視化的。它就像一場逆流而上的龍舟競賽,稍有懈怠就會被沖到下游,而且競爭對手全是重量級。

過去一年大模型競技場排名變化視頻(不含 Qwen1.5-110B)??梢钥吹?,盡管面對的是谷歌、Anthropic、Meta 等強大競爭對手,阿里云的 Qwen 也一度躋身前列。

那么,通義千問的開源大模型是如何一步一步走到今天的?最新發(fā)布的通義千問 2.5 又帶來了哪些驚喜?這篇文章將逐一揭曉。

超越 Llama-3-70B   通義千問開源大模型如何一步一步登頂?

不久之前,業(yè)內(nèi)曾有過一場「開源模型是否會越來越落后」的爭論。但后續(xù)出現(xiàn)的 Llama3、Qwen1.5 等模型用實力表明,開源模型的發(fā)展勢頭依然迅猛。

最近風(fēng)頭正盛的 Qwen1.5-110B 于 4 月 28 日開源,是 Qwen1.5 系列中規(guī)模最大的模型,也是該系列中首個擁有超 1000 億參數(shù)的模型。該模型可以處理 32K tokens 的上下文長度,并支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。

在技術(shù)細節(jié)上,Qwen1.5-110B 沿用了 Transformer 解碼器架構(gòu),包括分組查詢注意力(GQA),使得模型推理更加高效。

也因此,Qwen1.5-110B 在 MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval 等多個基準測評中不僅優(yōu)于自家 Qwen1.5-72B,更超越了 Meta 的 Llama-3-70B。這意味著,就基礎(chǔ)能力而言,Qwen1.5-110B 成為了比 Llama-3-70B 更優(yōu)秀的模型。

而在對話聊天場景,Qwen1.5-110B-Chat 在 MT-Bench 和 AlpacaEval 2.0 基準測試上的表現(xiàn)也雙雙好于 Llama-3-70B-Instruct。

來源:https://mp.weixin.qq.com/s/wrW3JWQWb8W7DqANitrMVw

看到這里,有的開發(fā)者可能會說,Qwen1.5-110B 好是好,就是太大了,跑不動啊。

這個時候,通義千問「家大業(yè)大」的優(yōu)勢就體現(xiàn)出來了。在 Qwen1.5-110B 發(fā)布之前,他們已經(jīng)開源了從 0.5B 到 72B 的七種尺寸的模型,提供了從端側(cè)到服務(wù)器部署的多種選擇。

而且,這些模型在各自所處的參數(shù)量級上都名列前茅。

以 Qwen1.5-72B 為例,這個模型不僅登頂過 HuggingFace 開源大模型排行榜、OpenCompass 開源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 評測中也表現(xiàn)不俗,超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。

圖片


圖片

在開放研究機構(gòu) LMSYS Org 推出的基準測試平臺 Chatbot Arena 上,Qwen1.5-72B 模型更是多次進入「盲測」結(jié)果全球 Top 10,創(chuàng)造了國產(chǎn)大模型的先例。

圖片

而且,和 Qwen1.5-110B 一樣,它也展現(xiàn)出了卓越的多語言能力。

有位越南網(wǎng)友表示,在越南版的 MMLU(VMLU)上,Qwen-72B 開箱即用,拿到了和 GPT-4 一樣的分數(shù),直接沖到了 SOTA。

而一位韓國網(wǎng)友看到后跟帖說,「在 wuli(我們的)韓國版 MMLU 上也一樣?!?/span>

圖片

除了語言,還有人發(fā)現(xiàn)了 Qwen-72B 的隱藏技能 —— 醫(yī)療知識。不需要寫任何特殊提示(prompt),Qwen-72B 給出的答案就能勝過專業(yè)的醫(yī)療 LLM。

當然,可能會有開發(fā)者說,72B 還是太大了,跑不動。那不妨試試更小的模型:14B、7B 的 Qwen 也很好用。

圖片

而且,這個 7B 模型還有「平替」,即性能與之相當?shù)?Qwen1.5-MoE-A2.7B。Qwen1.5-7B 包含 65 億個 Non-Embedding 參數(shù),Qwen1.5-MoE-A2.7B 只有 20 億個,僅為前者的 1/3。但是,后者推理速度提升了 1.74 倍,對于開發(fā)者來說更為高效。

可以看到,在眾多的大模型廠商中,通義千問在開源領(lǐng)域罕見地做到了「全尺寸」的開源,而且還在利用 MoE 等技術(shù)不斷優(yōu)化推理成本,這極大地擴展了其適用范圍。

除此之外,通義千問還在多模態(tài)以及一些實用的專有能力上進行了探索,開源了視覺理解模型 Qwen-VL,音頻理解模型 Qwen-Audio 以及代碼專家模型 CodeQwen1.5。

其中,CodeQwen1.5-7B 登頂過 Huggging Face 代碼模型榜單 BigCode。

這些模型在開發(fā)者社區(qū)也廣受好評。

有人在評論區(qū)喊話 Qwen 的核心維護者 Binyuan Hui,希望這些模型的升級版也能進一步開源。

此外,還有很多人在等 Qwen2 開源。

測試中的 Qwen-Max-0428 更是引發(fā)了各種猜測(有人認為它就是即將開源的 Qwen2)。最新消息顯示,這個模型已經(jīng)躋身 Chatbot Arena 總榜第 10 名,英文場景排名第 8,中文場景排名第 2。

圖片

在今天的發(fā)布會上,阿里云 CTO 周靖人透露,未來通義大模型還會持續(xù)開源,感覺大家千呼萬喚的 Qwen2 已經(jīng)在路上了(coming soon)。

地表最強中文大模型  通義千問 2.5 趕超 GPT-4 Turbo

在堅持 Qwen1.5 系列模型開源之外,通義千問大模型專注于「修煉內(nèi)功」,基礎(chǔ)能力得到不斷進步。自問世以來,通義千問的不斷迭代帶來自然語言、圖像、音視頻等生成式 AI 能力的持續(xù)升級,為更好、更快、更準的用戶體驗打好基礎(chǔ)。

果不其然,此次發(fā)布會上,我們見證了通義千問 2.5 基礎(chǔ)能力的又一次全方位提升。

相較于前序版本通義千問 2.1,通義千問 2.5 的理解能力、邏輯推理、指令遵循和代碼能力分別提升了 9%、16%、19%、10%,將基礎(chǔ)能力「卷」出新高度。

其中,中文語境下的文本生成和理解、 知識問答、生活建議、閑聊對話等垂直場景的能力更是趕超 GPT-4,成為中文社區(qū)最佳選擇。

在權(quán)威大模型評測基準平臺 OpenCompass 上,通義千問 2.5 的得分追平了 GPT-4 Turbo。這是國產(chǎn)大模型首次在該基準上取得如此出色的成績,讓我們看到了通義千問能力持續(xù)進化的巨大潛力。

至此,通義千問已經(jīng)站到了國內(nèi)外大模型領(lǐng)域的第一梯隊。

而得益于更強大的基礎(chǔ)能力,通義千問 2.5 在文檔處理、音視頻理解和智能代碼使用場景形成了獨有優(yōu)勢。

首先,通義千問 2.5 具備了超強的文檔處理能力,在支持輸入的文本長度上可以單次處理 1000 萬字,在支持輸入的文檔數(shù)量上可以單次處理 100 個文檔,實現(xiàn)了單次最長和最多。

通義千問 2.5 支持豐富的文件格式和文本類型,比如 Word、PDF、Excel 以及表單、合同、白皮書、論文、財報研報等。文本任務(wù)也多樣化,比如解析標題、文本段落、表格、圖表等多種版面類型及文檔層級目錄的識別和抽取。在輸出時支持 Markdown、JSON 等格式,對用戶友好、易用性拉滿。

其次,通義千問 2.5 具有出色的音視頻理解能力。

在通義千問語言能力、LLM 能力、多模態(tài)能力和翻譯能力的加持下,通過通義聽悟、語言視覺 AI 模型等,實現(xiàn)音視頻場景的信息挖掘、知識沉淀和高效閱讀。相關(guān)能力已在釘釘、阿里云盤等內(nèi)部產(chǎn)品以及合作伙伴的具體場景中有了廣泛的落地實踐,讓模型應(yīng)用實現(xiàn)「開花結(jié)果」。

此外,通義千問 2.5 賦予了開發(fā)者和企業(yè)卓越的智能編碼能力。

以通義代碼大模型CodeQwen1.5為底座的智能代碼助手「通義靈碼」,它的國內(nèi)用戶規(guī)模已經(jīng)達到了第一,其中插件下載量超過 350 萬,每日推薦代碼超過 3000 萬次,開發(fā)者采納代碼超過 1 億行。同時,正式發(fā)布的通義靈碼企業(yè)版能夠基于企業(yè)需求進行定制,幫助他們提升編碼體系的整體效率。

可以預(yù)見,隨著通義千問 2.5 的到來,它將成為更強大的模型底座,進而為普通用戶、開發(fā)者和企業(yè)客戶提供更多樣化、更準確、更快速的生成式 AI 體驗。

實戰(zhàn)效果

當然,評測數(shù)據(jù)的高低不能全方面代表大模型的實際效果。接下來,我們從普通用戶的角度考驗一下模型的能力到底如何。


通義千問網(wǎng)頁版地址:https://tongyi.aliyun.com/

輸入問題:「我今天有 3 個蘋果,昨天吃了一個?,F(xiàn)在有幾個蘋果?」

圖片

對于這個問題,假如不細想的話,很可能會給出錯誤答案 2,但通義千問不但給出了準確的答案,還分析了原因。

自打大模型爆火以來,「弱智吧」就成了檢測大模型能力的一項重要指標。我們測試一下通義千問會不會被弱智吧的問題繞進去。

圖片


圖片


從結(jié)果可以看出,通義千問不但給出了原因,還為我們補充了很多相關(guān)知識。

通義千問解讀笑話也是信手拈來:

圖片

接下來我們考察通義千問文本生成能力如何。

圖片

通篇讀下來,確實很有《紅樓夢》風(fēng)格,連唇膏名字都替我們想好了。

在長文本方面,通義千問也表現(xiàn)突出, 對論文《KAN: Kolmogorov–Arnold Networks 》(論文長達 48 頁)的亮點概括非常全面。

圖片

在代碼方面,我們要求通義千問編寫一個打地鼠的游戲,一眨眼的功夫,程序就完成了。

圖片

我們接著測試了通義千問對圖片的理解能力。比如吉娃娃和藍莓松餅之間有著驚人的相似之處,大模型經(jīng)常分辨不出,當我們輸入帶有兩者的圖片時,通義千問都能進行很好的區(qū)分:

圖片


圖片

根據(jù) emoji 表情猜成語也不在話下。

圖片

生活中遇到了問題,拍張圖片上傳到通義千問,它也能給出一些指導(dǎo)性建議。

圖片

通義千問不僅能夠理解圖片,還能生成圖片。唐代詩人王之渙筆下的《登鸛雀樓》描述的場景被活靈活現(xiàn)的呈現(xiàn)出來了。

圖片

以上測試,只是通義千問眾多功能中的冰山一角,感興趣的讀者可以前去官方網(wǎng)站一試。

一年時間趕超 GPT-4 Turbo   通義千問做對了什么? 

回顧過去的一年,上半年是百模大戰(zhàn),后半年是瞄準 GPT-4 的全面沖刺。在如此激烈的戰(zhàn)場上廝殺,并保持自身對于外界的辨識度,即使對于通義千問這樣的大廠模型來說也不是件容易的事。

但是,通義千問不僅做到了,還在國內(nèi)外都建立起了良好的口碑。這不僅得益于其背后團隊對于智能極限的探索,也得益于其對開源路線的堅持。

其實,這兩者是相輔相成的。我們看到,無論是在開源還是閉源的競技場上,開發(fā)者、企業(yè)用戶都有很多的模型可以選擇,因此,即使是做開源,也要開源最強的模型才有人用。而有人用才會有反饋,這點對于提升開源模型的能力至關(guān)重要。

在采訪中,阿里云副總裁、公眾溝通部總經(jīng)理張啟提到,現(xiàn)在圍繞通義千問的開發(fā)者社區(qū)非?;钴S,他們每天會給通義千問的模型開發(fā)人員提供非常多有意義的反饋,有很多反饋甚至超出了他們自己原來的設(shè)想。這也是為什么通義千問能夠在一年的時間內(nèi)先后超越 GPT-3.5、GPT-4 Turbo 的性能。「開源后,來自全球開發(fā)者的真實反饋,對我們模型本身進步發(fā)展速度的意義非常重大。」張啟說到。

在這種體系下,通義千問的開發(fā)人員與企業(yè)、開發(fā)者之間形成了一種并行探索的關(guān)系,有利于進一步挖掘 AI 大模型的潛力。

「如今,有很多開發(fā)者、企業(yè)能夠結(jié)合自己的實際開發(fā)場景和業(yè)務(wù)需求,借助 AI 模型實現(xiàn)翻天覆地的變化。在這個時間點,我們希望能夠以一個開放的心態(tài),將最先進的技術(shù)在各個方面開源,讓大家做并行的探索。這對整個產(chǎn)業(yè)乃至每個企業(yè)的創(chuàng)新性開發(fā)都至關(guān)重要,并已被全球范圍內(nèi)多次證明其價值?!怪芫溉苏f到。

其實,Meta 的成功就是周靖人提到的「證明」之一。前段時間,Meta CEO 扎克伯格在采訪中舉例說明了自家的 Open Compute 項目如何通過開源服務(wù)器、網(wǎng)絡(luò)交換機和數(shù)據(jù)中心的設(shè)計,最終導(dǎo)致供應(yīng)鏈圍繞這些設(shè)計建立,從而提高了產(chǎn)量并降低了成本,為公司節(jié)省了數(shù)十億美元。他們預(yù)計 AI 大模型領(lǐng)域也將發(fā)生同樣的事情。

此外,他還提到,開源有利于減少個別大公司對創(chuàng)新生態(tài)的限制。這和周靖人的觀點不謀而合?!冈鴰缀螘r,大家用云計算的時候,最擔心的就是上了某家的云之后就被綁定。我們把技術(shù)進展以開源的方式展現(xiàn)給大家,也是希望給大家多種選擇,讓大家沒有后顧之憂。」周靖人說到。

從 12 年前的深度學(xué)習(xí)革命開始,開源對 AI 技術(shù)的發(fā)展就起著關(guān)鍵性的推動作用。即使到如今的大模型時期,開源依然是推動大模型技術(shù)普遍落地應(yīng)用的有效方式之一。

在我們看來,近一年來通義系列的持續(xù)開源,對中文大模型社區(qū)的發(fā)展非常有意義,也期待后續(xù)有越來越多的強勁大模型繼續(xù)開源。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-12-26 08:17:23

微軟GPT-4

2024-05-30 12:50:05

2024-05-13 12:38:08

AI訓(xùn)練

2024-07-24 11:30:04

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-04-19 09:17:33

AI模型

2023-09-11 15:57:16

人工智能模型GPT-4

2024-01-31 09:38:23

AI模型

2024-04-19 14:52:13

MetaGPT-4模型

2024-05-21 12:23:17

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-11-18 09:37:49

2023-07-25 09:23:23

Llama 2GPT-4

2024-04-19 10:32:08

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-08-25 13:12:59

AI開源

2023-06-08 11:27:10

模型AI

2023-12-17 22:04:04

微軟GPT-4

2024-07-31 15:38:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩欧美国产一区二区三区 | 国产剧情久久 | 免费看爱爱视频 | 日一区二区 | 国产在线精品一区二区 | 国产99久久久国产精品 | 99精品欧美一区二区三区 | 午夜大片 | 欧美福利久久 | 作爱视频免费观看 | 国产激情片在线观看 | 日韩欧美在线视频 | 秋霞影院一区二区 | 草草视频在线观看 | 国产精品一区二区久久久久 | 国产精品入口麻豆www | 国产精品激情小视频 | 日韩影音 | 五月天婷婷久久 | 免费观看一级特黄欧美大片 | 国产中文在线 | 精精久久 | 国产一区二区 | 91亚洲国产成人久久精品网站 | 亚洲一区二区三区在线视频 | 综合自拍 | 国产成人自拍一区 | 91在线电影 | 亚洲天天干| 欧美日韩国产精品一区二区 | 看av片网站 | 欧美精品久久久久久久久老牛影院 | 91色网站 | 五月天婷婷综合 | 国产一级网站 | 91观看| 国产精品美女久久久久aⅴ国产馆 | re久久| 国产视频亚洲视频 | 亚洲精品91 | 一本色道精品久久一区二区三区 |