閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B,歪果仁:這中國大模型真香
國內(nèi)的開發(fā)者們或許沒有想到,有朝一日,他們開發(fā)的 AI 大模型會像出海的網(wǎng)文、短劇一樣,讓世界各地的網(wǎng)友坐等更新。甚至,來自韓國的網(wǎng)友已經(jīng)開始反思:為什么我們就沒有這樣的模型?
這個「別人家的孩子」就是阿里云的通義千問(英文名為 Qwen)。在過去的一年里,我們經(jīng)常能夠在 X 等社交平臺上看到它的身影。這些帖子一般有兩個主題:通義千問又開源新模型了!通義千問新模型還挺好用!
還有人以通義千問為例,反駁中國在人工智能方面落后的說法。而且,這一反駁并非來自主觀感受。在最近的 HuggingFace 開源大模型排行榜 Open LLM Leaderboard 上,我們驚訝地發(fā)現(xiàn),剛剛開源的 Qwen1.5-110B 已經(jīng)登上了榜首,性能比 Llama-3-70B 還強。
部分開發(fā)者的實測體驗也佐證了這一結(jié)果。
要知道,這還只是 Qwen1.5 的實力。等到 Qwen 2.x 系列模型開源,我們還將看到更多驚喜。
這份驚喜已經(jīng)能從通義千問的新模型里看到端倪,即阿里云今天發(fā)布的新模型 —— 通義千問 2.5。在性能上,該模型在中文場景已經(jīng)趕超GPT-4 Turbo,成為地表最強中文大模型。
去年 3 月份,OpenAI 發(fā)布了 GPT-4。如今,通義千問 2.5 的發(fā)布表明,歷經(jīng)一年多追趕,國產(chǎn)大模型終于進入核心競技場,可與國外一流大模型一較高下。
這一過程的艱辛是能夠可視化的。它就像一場逆流而上的龍舟競賽,稍有懈怠就會被沖到下游,而且競爭對手全是重量級。
過去一年大模型競技場排名變化視頻(不含 Qwen1.5-110B)??梢钥吹?,盡管面對的是谷歌、Anthropic、Meta 等強大競爭對手,阿里云的 Qwen 也一度躋身前列。
那么,通義千問的開源大模型是如何一步一步走到今天的?最新發(fā)布的通義千問 2.5 又帶來了哪些驚喜?這篇文章將逐一揭曉。
超越 Llama-3-70B 通義千問開源大模型如何一步一步登頂?
不久之前,業(yè)內(nèi)曾有過一場「開源模型是否會越來越落后」的爭論。但后續(xù)出現(xiàn)的 Llama3、Qwen1.5 等模型用實力表明,開源模型的發(fā)展勢頭依然迅猛。
最近風(fēng)頭正盛的 Qwen1.5-110B 于 4 月 28 日開源,是 Qwen1.5 系列中規(guī)模最大的模型,也是該系列中首個擁有超 1000 億參數(shù)的模型。該模型可以處理 32K tokens 的上下文長度,并支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。
在技術(shù)細節(jié)上,Qwen1.5-110B 沿用了 Transformer 解碼器架構(gòu),包括分組查詢注意力(GQA),使得模型推理更加高效。
也因此,Qwen1.5-110B 在 MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval 等多個基準測評中不僅優(yōu)于自家 Qwen1.5-72B,更超越了 Meta 的 Llama-3-70B。這意味著,就基礎(chǔ)能力而言,Qwen1.5-110B 成為了比 Llama-3-70B 更優(yōu)秀的模型。
而在對話聊天場景,Qwen1.5-110B-Chat 在 MT-Bench 和 AlpacaEval 2.0 基準測試上的表現(xiàn)也雙雙好于 Llama-3-70B-Instruct。
來源:https://mp.weixin.qq.com/s/wrW3JWQWb8W7DqANitrMVw
看到這里,有的開發(fā)者可能會說,Qwen1.5-110B 好是好,就是太大了,跑不動啊。
這個時候,通義千問「家大業(yè)大」的優(yōu)勢就體現(xiàn)出來了。在 Qwen1.5-110B 發(fā)布之前,他們已經(jīng)開源了從 0.5B 到 72B 的七種尺寸的模型,提供了從端側(cè)到服務(wù)器部署的多種選擇。
而且,這些模型在各自所處的參數(shù)量級上都名列前茅。
以 Qwen1.5-72B 為例,這個模型不僅登頂過 HuggingFace 開源大模型排行榜、OpenCompass 開源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 評測中也表現(xiàn)不俗,超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。
在開放研究機構(gòu) LMSYS Org 推出的基準測試平臺 Chatbot Arena 上,Qwen1.5-72B 模型更是多次進入「盲測」結(jié)果全球 Top 10,創(chuàng)造了國產(chǎn)大模型的先例。
而且,和 Qwen1.5-110B 一樣,它也展現(xiàn)出了卓越的多語言能力。
有位越南網(wǎng)友表示,在越南版的 MMLU(VMLU)上,Qwen-72B 開箱即用,拿到了和 GPT-4 一樣的分數(shù),直接沖到了 SOTA。
而一位韓國網(wǎng)友看到后跟帖說,「在 wuli(我們的)韓國版 MMLU 上也一樣?!?/span>
除了語言,還有人發(fā)現(xiàn)了 Qwen-72B 的隱藏技能 —— 醫(yī)療知識。不需要寫任何特殊提示(prompt),Qwen-72B 給出的答案就能勝過專業(yè)的醫(yī)療 LLM。
當然,可能會有開發(fā)者說,72B 還是太大了,跑不動。那不妨試試更小的模型:14B、7B 的 Qwen 也很好用。
而且,這個 7B 模型還有「平替」,即性能與之相當?shù)?Qwen1.5-MoE-A2.7B。Qwen1.5-7B 包含 65 億個 Non-Embedding 參數(shù),Qwen1.5-MoE-A2.7B 只有 20 億個,僅為前者的 1/3。但是,后者推理速度提升了 1.74 倍,對于開發(fā)者來說更為高效。
可以看到,在眾多的大模型廠商中,通義千問在開源領(lǐng)域罕見地做到了「全尺寸」的開源,而且還在利用 MoE 等技術(shù)不斷優(yōu)化推理成本,這極大地擴展了其適用范圍。
除此之外,通義千問還在多模態(tài)以及一些實用的專有能力上進行了探索,開源了視覺理解模型 Qwen-VL,音頻理解模型 Qwen-Audio 以及代碼專家模型 CodeQwen1.5。
其中,CodeQwen1.5-7B 登頂過 Huggging Face 代碼模型榜單 BigCode。
這些模型在開發(fā)者社區(qū)也廣受好評。
有人在評論區(qū)喊話 Qwen 的核心維護者 Binyuan Hui,希望這些模型的升級版也能進一步開源。
此外,還有很多人在等 Qwen2 開源。
測試中的 Qwen-Max-0428 更是引發(fā)了各種猜測(有人認為它就是即將開源的 Qwen2)。最新消息顯示,這個模型已經(jīng)躋身 Chatbot Arena 總榜第 10 名,英文場景排名第 8,中文場景排名第 2。
在今天的發(fā)布會上,阿里云 CTO 周靖人透露,未來通義大模型還會持續(xù)開源,感覺大家千呼萬喚的 Qwen2 已經(jīng)在路上了(coming soon)。
地表最強中文大模型 通義千問 2.5 趕超 GPT-4 Turbo
在堅持 Qwen1.5 系列模型開源之外,通義千問大模型專注于「修煉內(nèi)功」,基礎(chǔ)能力得到不斷進步。自問世以來,通義千問的不斷迭代帶來自然語言、圖像、音視頻等生成式 AI 能力的持續(xù)升級,為更好、更快、更準的用戶體驗打好基礎(chǔ)。
果不其然,此次發(fā)布會上,我們見證了通義千問 2.5 基礎(chǔ)能力的又一次全方位提升。
相較于前序版本通義千問 2.1,通義千問 2.5 的理解能力、邏輯推理、指令遵循和代碼能力分別提升了 9%、16%、19%、10%,將基礎(chǔ)能力「卷」出新高度。
其中,中文語境下的文本生成和理解、 知識問答、生活建議、閑聊對話等垂直場景的能力更是趕超 GPT-4,成為中文社區(qū)最佳選擇。
在權(quán)威大模型評測基準平臺 OpenCompass 上,通義千問 2.5 的得分追平了 GPT-4 Turbo。這是國產(chǎn)大模型首次在該基準上取得如此出色的成績,讓我們看到了通義千問能力持續(xù)進化的巨大潛力。
至此,通義千問已經(jīng)站到了國內(nèi)外大模型領(lǐng)域的第一梯隊。
而得益于更強大的基礎(chǔ)能力,通義千問 2.5 在文檔處理、音視頻理解和智能代碼使用場景形成了獨有優(yōu)勢。
首先,通義千問 2.5 具備了超強的文檔處理能力,在支持輸入的文本長度上可以單次處理 1000 萬字,在支持輸入的文檔數(shù)量上可以單次處理 100 個文檔,實現(xiàn)了單次最長和最多。
通義千問 2.5 支持豐富的文件格式和文本類型,比如 Word、PDF、Excel 以及表單、合同、白皮書、論文、財報研報等。文本任務(wù)也多樣化,比如解析標題、文本段落、表格、圖表等多種版面類型及文檔層級目錄的識別和抽取。在輸出時支持 Markdown、JSON 等格式,對用戶友好、易用性拉滿。
其次,通義千問 2.5 具有出色的音視頻理解能力。
在通義千問語言能力、LLM 能力、多模態(tài)能力和翻譯能力的加持下,通過通義聽悟、語言視覺 AI 模型等,實現(xiàn)音視頻場景的信息挖掘、知識沉淀和高效閱讀。相關(guān)能力已在釘釘、阿里云盤等內(nèi)部產(chǎn)品以及合作伙伴的具體場景中有了廣泛的落地實踐,讓模型應(yīng)用實現(xiàn)「開花結(jié)果」。
此外,通義千問 2.5 賦予了開發(fā)者和企業(yè)卓越的智能編碼能力。
以通義代碼大模型CodeQwen1.5為底座的智能代碼助手「通義靈碼」,它的國內(nèi)用戶規(guī)模已經(jīng)達到了第一,其中插件下載量超過 350 萬,每日推薦代碼超過 3000 萬次,開發(fā)者采納代碼超過 1 億行。同時,正式發(fā)布的通義靈碼企業(yè)版能夠基于企業(yè)需求進行定制,幫助他們提升編碼體系的整體效率。
可以預(yù)見,隨著通義千問 2.5 的到來,它將成為更強大的模型底座,進而為普通用戶、開發(fā)者和企業(yè)客戶提供更多樣化、更準確、更快速的生成式 AI 體驗。
實戰(zhàn)效果
當然,評測數(shù)據(jù)的高低不能全方面代表大模型的實際效果。接下來,我們從普通用戶的角度考驗一下模型的能力到底如何。
通義千問網(wǎng)頁版地址:https://tongyi.aliyun.com/
輸入問題:「我今天有 3 個蘋果,昨天吃了一個?,F(xiàn)在有幾個蘋果?」
對于這個問題,假如不細想的話,很可能會給出錯誤答案 2,但通義千問不但給出了準確的答案,還分析了原因。
自打大模型爆火以來,「弱智吧」就成了檢測大模型能力的一項重要指標。我們測試一下通義千問會不會被弱智吧的問題繞進去。
從結(jié)果可以看出,通義千問不但給出了原因,還為我們補充了很多相關(guān)知識。
通義千問解讀笑話也是信手拈來:
接下來我們考察通義千問文本生成能力如何。
通篇讀下來,確實很有《紅樓夢》風(fēng)格,連唇膏名字都替我們想好了。
在長文本方面,通義千問也表現(xiàn)突出, 對論文《KAN: Kolmogorov–Arnold Networks 》(論文長達 48 頁)的亮點概括非常全面。
在代碼方面,我們要求通義千問編寫一個打地鼠的游戲,一眨眼的功夫,程序就完成了。
我們接著測試了通義千問對圖片的理解能力。比如吉娃娃和藍莓松餅之間有著驚人的相似之處,大模型經(jīng)常分辨不出,當我們輸入帶有兩者的圖片時,通義千問都能進行很好的區(qū)分:
根據(jù) emoji 表情猜成語也不在話下。
生活中遇到了問題,拍張圖片上傳到通義千問,它也能給出一些指導(dǎo)性建議。
通義千問不僅能夠理解圖片,還能生成圖片。唐代詩人王之渙筆下的《登鸛雀樓》描述的場景被活靈活現(xiàn)的呈現(xiàn)出來了。
以上測試,只是通義千問眾多功能中的冰山一角,感興趣的讀者可以前去官方網(wǎng)站一試。
一年時間趕超 GPT-4 Turbo 通義千問做對了什么?
回顧過去的一年,上半年是百模大戰(zhàn),后半年是瞄準 GPT-4 的全面沖刺。在如此激烈的戰(zhàn)場上廝殺,并保持自身對于外界的辨識度,即使對于通義千問這樣的大廠模型來說也不是件容易的事。
但是,通義千問不僅做到了,還在國內(nèi)外都建立起了良好的口碑。這不僅得益于其背后團隊對于智能極限的探索,也得益于其對開源路線的堅持。
其實,這兩者是相輔相成的。我們看到,無論是在開源還是閉源的競技場上,開發(fā)者、企業(yè)用戶都有很多的模型可以選擇,因此,即使是做開源,也要開源最強的模型才有人用。而有人用才會有反饋,這點對于提升開源模型的能力至關(guān)重要。
在采訪中,阿里云副總裁、公眾溝通部總經(jīng)理張啟提到,現(xiàn)在圍繞通義千問的開發(fā)者社區(qū)非?;钴S,他們每天會給通義千問的模型開發(fā)人員提供非常多有意義的反饋,有很多反饋甚至超出了他們自己原來的設(shè)想。這也是為什么通義千問能夠在一年的時間內(nèi)先后超越 GPT-3.5、GPT-4 Turbo 的性能。「開源后,來自全球開發(fā)者的真實反饋,對我們模型本身進步發(fā)展速度的意義非常重大。」張啟說到。
在這種體系下,通義千問的開發(fā)人員與企業(yè)、開發(fā)者之間形成了一種并行探索的關(guān)系,有利于進一步挖掘 AI 大模型的潛力。
「如今,有很多開發(fā)者、企業(yè)能夠結(jié)合自己的實際開發(fā)場景和業(yè)務(wù)需求,借助 AI 模型實現(xiàn)翻天覆地的變化。在這個時間點,我們希望能夠以一個開放的心態(tài),將最先進的技術(shù)在各個方面開源,讓大家做并行的探索。這對整個產(chǎn)業(yè)乃至每個企業(yè)的創(chuàng)新性開發(fā)都至關(guān)重要,并已被全球范圍內(nèi)多次證明其價值?!怪芫溉苏f到。
其實,Meta 的成功就是周靖人提到的「證明」之一。前段時間,Meta CEO 扎克伯格在采訪中舉例說明了自家的 Open Compute 項目如何通過開源服務(wù)器、網(wǎng)絡(luò)交換機和數(shù)據(jù)中心的設(shè)計,最終導(dǎo)致供應(yīng)鏈圍繞這些設(shè)計建立,從而提高了產(chǎn)量并降低了成本,為公司節(jié)省了數(shù)十億美元。他們預(yù)計 AI 大模型領(lǐng)域也將發(fā)生同樣的事情。
此外,他還提到,開源有利于減少個別大公司對創(chuàng)新生態(tài)的限制。這和周靖人的觀點不謀而合?!冈鴰缀螘r,大家用云計算的時候,最擔心的就是上了某家的云之后就被綁定。我們把技術(shù)進展以開源的方式展現(xiàn)給大家,也是希望給大家多種選擇,讓大家沒有后顧之憂。」周靖人說到。
從 12 年前的深度學(xué)習(xí)革命開始,開源對 AI 技術(shù)的發(fā)展就起著關(guān)鍵性的推動作用。即使到如今的大模型時期,開源依然是推動大模型技術(shù)普遍落地應(yīng)用的有效方式之一。
在我們看來,近一年來通義系列的持續(xù)開源,對中文大模型社區(qū)的發(fā)展非常有意義,也期待后續(xù)有越來越多的強勁大模型繼續(xù)開源。