閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B，歪果仁：這中國大模型真香

作者：機器之心 2024-05-10 09:10:56

在發(fā)布一周年之際，阿里云通義千問大模型在閉源和開源領(lǐng)域都交上了一份滿意的答卷。

國內(nèi)的開發(fā)者們或許沒有想到，有朝一日，他們開發(fā)的 AI 大模型會像出海的網(wǎng)文、短劇一樣，讓世界各地的網(wǎng)友坐等更新。甚至，來自韓國的網(wǎng)友已經(jīng)開始反思：為什么我們就沒有這樣的模型？

這個「別人家的孩子」就是阿里云的通義千問（英文名為 Qwen）。在過去的一年里，我們經(jīng)常能夠在 X 等社交平臺上看到它的身影。這些帖子一般有兩個主題：通義千問又開源新模型了！通義千問新模型還挺好用！

還有人以通義千問為例，反駁中國在人工智能方面落后的說法。而且，這一反駁并非來自主觀感受。在最近的 HuggingFace 開源大模型排行榜 Open LLM Leaderboard 上，我們驚訝地發(fā)現(xiàn)，剛剛開源的 Qwen1.5-110B 已經(jīng)登上了榜首，性能比 Llama-3-70B 還強。

部分開發(fā)者的實測體驗也佐證了這一結(jié)果。

要知道，這還只是 Qwen1.5 的實力。等到 Qwen 2.x 系列模型開源，我們還將看到更多驚喜。

這份驚喜已經(jīng)能從通義千問的新模型里看到端倪，即阿里云今天發(fā)布的新模型 —— 通義千問 2.5。在性能上，該模型在中文場景已經(jīng)趕超GPT-4 Turbo，成為地表最強中文大模型。

去年 3 月份，OpenAI 發(fā)布了 GPT-4。如今，通義千問 2.5 的發(fā)布表明，歷經(jīng)一年多追趕，國產(chǎn)大模型終于進入核心競技場，可與國外一流大模型一較高下。

這一過程的艱辛是能夠可視化的。它就像一場逆流而上的龍舟競賽，稍有懈怠就會被沖到下游，而且競爭對手全是重量級。

過去一年大模型競技場排名變化視頻（不含 Qwen1.5-110B）?？梢钥吹?，盡管面對的是谷歌、Anthropic、Meta 等強大競爭對手，阿里云的 Qwen 也一度躋身前列。

那么，通義千問的開源大模型是如何一步一步走到今天的？最新發(fā)布的通義千問 2.5 又帶來了哪些驚喜？這篇文章將逐一揭曉。

超越 Llama-3-70B 通義千問開源大模型如何一步一步登頂？

不久之前，業(yè)內(nèi)曾有過一場「開源模型是否會越來越落后」的爭論。但后續(xù)出現(xiàn)的 Llama3、Qwen1.5 等模型用實力表明，開源模型的發(fā)展勢頭依然迅猛。

最近風(fēng)頭正盛的 Qwen1.5-110B 于 4 月 28 日開源，是 Qwen1.5 系列中規(guī)模最大的模型，也是該系列中首個擁有超 1000 億參數(shù)的模型。該模型可以處理 32K tokens 的上下文長度，并支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。

在技術(shù)細節(jié)上，Qwen1.5-110B 沿用了 Transformer 解碼器架構(gòu)，包括分組查詢注意力（GQA），使得模型推理更加高效。

也因此，Qwen1.5-110B 在 MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval 等多個基準測評中不僅優(yōu)于自家 Qwen1.5-72B，更超越了 Meta 的 Llama-3-70B。這意味著，就基礎(chǔ)能力而言，Qwen1.5-110B 成為了比 Llama-3-70B 更優(yōu)秀的模型。

而在對話聊天場景，Qwen1.5-110B-Chat 在 MT-Bench 和 AlpacaEval 2.0 基準測試上的表現(xiàn)也雙雙好于 Llama-3-70B-Instruct。

來源：https://mp.weixin.qq.com/s/wrW3JWQWb8W7DqANitrMVw

看到這里，有的開發(fā)者可能會說，Qwen1.5-110B 好是好，就是太大了，跑不動啊。

這個時候，通義千問「家大業(yè)大」的優(yōu)勢就體現(xiàn)出來了。在 Qwen1.5-110B 發(fā)布之前，他們已經(jīng)開源了從 0.5B 到 72B 的七種尺寸的模型，提供了從端側(cè)到服務(wù)器部署的多種選擇。

而且，這些模型在各自所處的參數(shù)量級上都名列前茅。

以 Qwen1.5-72B 為例，這個模型不僅登頂過 HuggingFace 開源大模型排行榜、OpenCompass 開源基座大模型排行榜，而且在 MT-Bench 和 Alpaca-Eval v2 評測中也表現(xiàn)不俗，超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。

在開放研究機構(gòu) LMSYS Org 推出的基準測試平臺 Chatbot Arena 上，Qwen1.5-72B 模型更是多次進入「盲測」結(jié)果全球 Top 10，創(chuàng)造了國產(chǎn)大模型的先例。

而且，和 Qwen1.5-110B 一樣，它也展現(xiàn)出了卓越的多語言能力。

有位越南網(wǎng)友表示，在越南版的 MMLU（VMLU）上，Qwen-72B 開箱即用，拿到了和 GPT-4 一樣的分數(shù)，直接沖到了 SOTA。

而一位韓國網(wǎng)友看到后跟帖說，「在 wuli（我們的）韓國版 MMLU 上也一樣?！?/span>

除了語言，還有人發(fā)現(xiàn)了 Qwen-72B 的隱藏技能 —— 醫(yī)療知識。不需要寫任何特殊提示（prompt），Qwen-72B 給出的答案就能勝過專業(yè)的醫(yī)療 LLM。

當然，可能會有開發(fā)者說，72B 還是太大了，跑不動。那不妨試試更小的模型：14B、7B 的 Qwen 也很好用。

而且，這個 7B 模型還有「平替」，即性能與之相當?shù)?Qwen1.5-MoE-A2.7B。Qwen1.5-7B 包含 65 億個 Non-Embedding 參數(shù)，Qwen1.5-MoE-A2.7B 只有 20 億個，僅為前者的 1/3。但是，后者推理速度提升了 1.74 倍，對于開發(fā)者來說更為高效。

可以看到，在眾多的大模型廠商中，通義千問在開源領(lǐng)域罕見地做到了「全尺寸」的開源，而且還在利用 MoE 等技術(shù)不斷優(yōu)化推理成本，這極大地擴展了其適用范圍。

除此之外，通義千問還在多模態(tài)以及一些實用的專有能力上進行了探索，開源了視覺理解模型 Qwen-VL，音頻理解模型 Qwen-Audio 以及代碼專家模型 CodeQwen1.5。

其中，CodeQwen1.5-7B 登頂過 Huggging Face 代碼模型榜單 BigCode。

這些模型在開發(fā)者社區(qū)也廣受好評。

有人在評論區(qū)喊話 Qwen 的核心維護者 Binyuan Hui，希望這些模型的升級版也能進一步開源。

此外，還有很多人在等 Qwen2 開源。

測試中的 Qwen-Max-0428 更是引發(fā)了各種猜測（有人認為它就是即將開源的 Qwen2）。最新消息顯示，這個模型已經(jīng)躋身 Chatbot Arena 總榜第 10 名，英文場景排名第 8，中文場景排名第 2。

在今天的發(fā)布會上，阿里云 CTO 周靖人透露，未來通義大模型還會持續(xù)開源，感覺大家千呼萬喚的 Qwen2 已經(jīng)在路上了（coming soon）。

地表最強中文大模型通義千問 2.5 趕超 GPT-4 Turbo

在堅持 Qwen1.5 系列模型開源之外，通義千問大模型專注于「修煉內(nèi)功」，基礎(chǔ)能力得到不斷進步。自問世以來，通義千問的不斷迭代帶來自然語言、圖像、音視頻等生成式 AI 能力的持續(xù)升級，為更好、更快、更準的用戶體驗打好基礎(chǔ)。

果不其然，此次發(fā)布會上，我們見證了通義千問 2.5 基礎(chǔ)能力的又一次全方位提升。

相較于前序版本通義千問 2.1，通義千問 2.5 的理解能力、邏輯推理、指令遵循和代碼能力分別提升了 9%、16%、19%、10%，將基礎(chǔ)能力「卷」出新高度。

其中，中文語境下的文本生成和理解、知識問答、生活建議、閑聊對話等垂直場景的能力更是趕超 GPT-4，成為中文社區(qū)最佳選擇。

在權(quán)威大模型評測基準平臺 OpenCompass 上，通義千問 2.5 的得分追平了 GPT-4 Turbo。這是國產(chǎn)大模型首次在該基準上取得如此出色的成績，讓我們看到了通義千問能力持續(xù)進化的巨大潛力。

至此，通義千問已經(jīng)站到了國內(nèi)外大模型領(lǐng)域的第一梯隊。

而得益于更強大的基礎(chǔ)能力，通義千問 2.5 在文檔處理、音視頻理解和智能代碼使用場景形成了獨有優(yōu)勢。

首先，通義千問 2.5 具備了超強的文檔處理能力，在支持輸入的文本長度上可以單次處理 1000 萬字，在支持輸入的文檔數(shù)量上可以單次處理 100 個文檔，實現(xiàn)了單次最長和最多。

通義千問 2.5 支持豐富的文件格式和文本類型，比如 Word、PDF、Excel 以及表單、合同、白皮書、論文、財報研報等。文本任務(wù)也多樣化，比如解析標題、文本段落、表格、圖表等多種版面類型及文檔層級目錄的識別和抽取。在輸出時支持 Markdown、JSON 等格式，對用戶友好、易用性拉滿。

其次，通義千問 2.5 具有出色的音視頻理解能力。

在通義千問語言能力、LLM 能力、多模態(tài)能力和翻譯能力的加持下，通過通義聽悟、語言視覺 AI 模型等，實現(xiàn)音視頻場景的信息挖掘、知識沉淀和高效閱讀。相關(guān)能力已在釘釘、阿里云盤等內(nèi)部產(chǎn)品以及合作伙伴的具體場景中有了廣泛的落地實踐，讓模型應(yīng)用實現(xiàn)「開花結(jié)果」。

此外，通義千問 2.5 賦予了開發(fā)者和企業(yè)卓越的智能編碼能力。

以通義代碼大模型CodeQwen1.5為底座的智能代碼助手「通義靈碼」，它的國內(nèi)用戶規(guī)模已經(jīng)達到了第一，其中插件下載量超過 350 萬，每日推薦代碼超過 3000 萬次，開發(fā)者采納代碼超過 1 億行。同時，正式發(fā)布的通義靈碼企業(yè)版能夠基于企業(yè)需求進行定制，幫助他們提升編碼體系的整體效率。

可以預(yù)見，隨著通義千問 2.5 的到來，它將成為更強大的模型底座，進而為普通用戶、開發(fā)者和企業(yè)客戶提供更多樣化、更準確、更快速的生成式 AI 體驗。

實戰(zhàn)效果

當然，評測數(shù)據(jù)的高低不能全方面代表大模型的實際效果。接下來，我們從普通用戶的角度考驗一下模型的能力到底如何。

通義千問網(wǎng)頁版地址：https://tongyi.aliyun.com/

輸入問題：「我今天有 3 個蘋果，昨天吃了一個?，F(xiàn)在有幾個蘋果？」

對于這個問題，假如不細想的話，很可能會給出錯誤答案 2，但通義千問不但給出了準確的答案，還分析了原因。

自打大模型爆火以來，「弱智吧」就成了檢測大模型能力的一項重要指標。我們測試一下通義千問會不會被弱智吧的問題繞進去。

從結(jié)果可以看出，通義千問不但給出了原因，還為我們補充了很多相關(guān)知識。

通義千問解讀笑話也是信手拈來：

接下來我們考察通義千問文本生成能力如何。

通篇讀下來，確實很有《紅樓夢》風(fēng)格，連唇膏名字都替我們想好了。

在長文本方面，通義千問也表現(xiàn)突出，對論文《KAN: Kolmogorov–Arnold Networks 》（論文長達 48 頁）的亮點概括非常全面。

在代碼方面，我們要求通義千問編寫一個打地鼠的游戲，一眨眼的功夫，程序就完成了。

我們接著測試了通義千問對圖片的理解能力。比如吉娃娃和藍莓松餅之間有著驚人的相似之處，大模型經(jīng)常分辨不出，當我們輸入帶有兩者的圖片時，通義千問都能進行很好的區(qū)分：

根據(jù) emoji 表情猜成語也不在話下。

生活中遇到了問題，拍張圖片上傳到通義千問，它也能給出一些指導(dǎo)性建議。

通義千問不僅能夠理解圖片，還能生成圖片。唐代詩人王之渙筆下的《登鸛雀樓》描述的場景被活靈活現(xiàn)的呈現(xiàn)出來了。

以上測試，只是通義千問眾多功能中的冰山一角，感興趣的讀者可以前去官方網(wǎng)站一試。

一年時間趕超 GPT-4 Turbo 通義千問做對了什么？

回顧過去的一年，上半年是百模大戰(zhàn)，后半年是瞄準 GPT-4 的全面沖刺。在如此激烈的戰(zhàn)場上廝殺，并保持自身對于外界的辨識度，即使對于通義千問這樣的大廠模型來說也不是件容易的事。

但是，通義千問不僅做到了，還在國內(nèi)外都建立起了良好的口碑。這不僅得益于其背后團隊對于智能極限的探索，也得益于其對開源路線的堅持。

其實，這兩者是相輔相成的。我們看到，無論是在開源還是閉源的競技場上，開發(fā)者、企業(yè)用戶都有很多的模型可以選擇，因此，即使是做開源，也要開源最強的模型才有人用。而有人用才會有反饋，這點對于提升開源模型的能力至關(guān)重要。

在采訪中，阿里云副總裁、公眾溝通部總經(jīng)理張啟提到，現(xiàn)在圍繞通義千問的開發(fā)者社區(qū)非?；钴S，他們每天會給通義千問的模型開發(fā)人員提供非常多有意義的反饋，有很多反饋甚至超出了他們自己原來的設(shè)想。這也是為什么通義千問能夠在一年的時間內(nèi)先后超越 GPT-3.5、GPT-4 Turbo 的性能。「開源后，來自全球開發(fā)者的真實反饋，對我們模型本身進步發(fā)展速度的意義非常重大。」張啟說到。

在這種體系下，通義千問的開發(fā)人員與企業(yè)、開發(fā)者之間形成了一種并行探索的關(guān)系，有利于進一步挖掘 AI 大模型的潛力。

「如今，有很多開發(fā)者、企業(yè)能夠結(jié)合自己的實際開發(fā)場景和業(yè)務(wù)需求，借助 AI 模型實現(xiàn)翻天覆地的變化。在這個時間點，我們希望能夠以一個開放的心態(tài)，將最先進的技術(shù)在各個方面開源，讓大家做并行的探索。這對整個產(chǎn)業(yè)乃至每個企業(yè)的創(chuàng)新性開發(fā)都至關(guān)重要，并已被全球范圍內(nèi)多次證明其價值?！怪芫溉苏f到。

其實，Meta 的成功就是周靖人提到的「證明」之一。前段時間，Meta CEO 扎克伯格在采訪中舉例說明了自家的 Open Compute 項目如何通過開源服務(wù)器、網(wǎng)絡(luò)交換機和數(shù)據(jù)中心的設(shè)計，最終導(dǎo)致供應(yīng)鏈圍繞這些設(shè)計建立，從而提高了產(chǎn)量并降低了成本，為公司節(jié)省了數(shù)十億美元。他們預(yù)計 AI 大模型領(lǐng)域也將發(fā)生同樣的事情。

此外，他還提到，開源有利于減少個別大公司對創(chuàng)新生態(tài)的限制。這和周靖人的觀點不謀而合?！冈鴰缀螘r，大家用云計算的時候，最擔心的就是上了某家的云之后就被綁定。我們把技術(shù)進展以開源的方式展現(xiàn)給大家，也是希望給大家多種選擇，讓大家沒有后顧之憂。」周靖人說到。

從 12 年前的深度學(xué)習(xí)革命開始，開源對 AI 技術(shù)的發(fā)展就起著關(guān)鍵性的推動作用。即使到如今的大模型時期，開源依然是推動大模型技術(shù)普遍落地應(yīng)用的有效方式之一。

在我們看來，近一年來通義系列的持續(xù)開源，對中文大模型社區(qū)的發(fā)展非常有意義，也期待后續(xù)有越來越多的強勁大模型繼續(xù)開源。

責任編輯：張燕妮來源：機器之心

模型訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B，歪果仁：這中國大模型真香

超越 Llama-3-70B 通義千問開源大模型如何一步一步登頂？

一年時間趕超 GPT-4 Turbo 通義千問做對了什么？

閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B，歪果仁：這中國大模型真香

一年時間趕超 GPT-4 Turbo 通義千問做對了什么？