通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5
趕在春節前,通義千問大模型(Qwen)的 1.5 版上線了。今天上午,新版本的消息引發了 AI 社區關注。
新版大模型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最強版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多語言支持。
阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問 App。
除此以外,今天 Qwen 1.5 的發布還有如下一些重點:
- 支持 32K 上下文長度;
- 開放了 Base + Chat 模型的 checkpoint;
- 可與 Transformers 一起本地運行;
- 同時發布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 權重。
借助更先進的大模型作為評委,通義千問團隊在兩個廣泛使用的基準 MT-Bench 和 Alpaca-Eval 上對 Qwen1.5 進行了初步評估,評估結果如下:
盡管落后于 GPT-4-Turbo,但最大版本的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表現出了可觀的效果,性能超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,與最近熱門的新模型 Mistral Medium 不相上下。
此外通義千問團隊表示,雖然大模型判斷的評分似乎與回答的長度有關,但人類觀察結果表明 Qwen1.5 并沒有因為產生過長的回答來影響評分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均長度為 1618,與 GPT-4 的長度一致,比 GPT-4-Turbo 短。
通義千問的開發者表示,最近幾個月,他們一直在專注探索如何構建一個真正「卓越」的模型,并在此過程中不斷提升開發者的使用體驗。
相較于以往版本,本次更新著重提升了 Chat 模型與人類偏好的對齊程度,并且顯著增強了模型的多語言處理能力。在序列長度方面,所有規模模型均已實現 32768 個 tokens 的上下文長度范圍支持。同時,預訓練 Base 模型的質量也有關鍵優化,有望在微調過程中為人們帶來更佳體驗。
基礎能力
關于模型基礎能力的評測,通義千問團隊在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準數據集上對 Qwen1.5 進行了評估。
在不同模型尺寸下,Qwen1.5 都在評估基準中表現出強大的性能,72B 的版本在所有基準測試中都超越了 Llama2-70B,展示了其在語言理解、推理和數學方面的能力。
最近一段時間,小型模型的構建是業內熱點之一,通義千問團隊將模型參數小于 70 億的 Qwen1.5 模型與社區中重要的小型模型進行了比較:
在參數規模低于 70 億的范圍內 Qwen1.5 與業界領先的小型模型相比具有很強的競爭力。
多語言能力
在來自歐洲、東亞和東南亞的 12 種不同語言上,通義千問團隊評估了 Base 模型的多語言能力。從開源社區的公開數據集中,阿里研究者構建了如下表所示的評測集合,共涵蓋四個不同的維度:考試、理解、翻譯、數學。下表提供了每個測試集的詳細信息,包括其評測配置、評價指標以及所涉及的具體語言種類。
詳細的結果如下:
上述結果表明,Qwen1.5 Base 模型在 12 種不同語言的多語言能力方面表現出色,在學科知識、語言理解、翻譯、數學等各個維度的評估中,均展現了不錯的結果。更進一步地,在 Chat 模型的多語言能力上,可以觀察到如下結果:
長序列
隨著長序列理解的需求不斷增加,阿里在新版本上提升了千問模型的相應能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通義千問團隊在 L-Eval 基準上評估了 Qwen1.5 模型的性能,該基準衡量了模型根據長上下文生成響應的能力。結果如下:
從結果來看,即使像 Qwen1.5-7B-Chat 這樣的小規模模型,也能表現出與 GPT-3.5 可比較的性能,而最大的模型 Qwen1.5-72B-Chat 僅略微落后于 GPT4-32k。
值得一提的是,以上結果僅展示了 Qwen 1.5 在 32K tokens 長度下的效果,并不代表模型最大只能支持 32K 長度。開發者可以在 config.json 中,將 max_position_embedding 嘗試修改為更大的值,觀察模型在更長上下文理解場景下,是否可以實現令人滿意的效果。
鏈接外部系統
如今,通用語言模型的一大魅力在于其與外部系統對接的潛在能力。RAG 作為一種在社區中快速興起的任務,有效應對了大語言模型面臨的一些典型挑戰,如幻覺、無法獲取實時更新或私有數據等問題。此外,語言模型在使用 API 和根據指令及示例編寫代碼方面,展現出了強大的能力。大模型能夠使用代碼解釋器或扮演 AI 智能體,發揮出更為廣闊的價值。
通義千問團隊對 Qwen1.5 系列 Chat 模型在 RAG 任務上的端到端效果進行了評估。評測基于 RGB 測試集,是一個用于中英文 RAG 評估的集合:
然后,通義千問團隊在 T-Eval 基準測試中評估了 Qwen1.5 作為通用智能體運行的能力。所有 Qwen1.5 模型都沒有專門面向基準進行優化:
為了測試工具調用能力,阿里使用自身開源的評估基準測試模型正確選擇、調用工具的能力,結果如下:
最后,由于 Python 代碼解釋器已成為高級 LLM 越來越強大的工具,通義千問團隊還在之前開源的評估基準上評估了新模型利用這一工具的能力:
結果表明,較大的 Qwen1.5-Chat 模型通常優于較小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不過,在數學解題和可視化等代碼解釋器任務中,即使是最大的 Qwen1.5-72B-Chat 模型也會因編碼能力而明顯落后于 GPT-4。阿里表示,會在未來的版本中,在預訓練和對齊過程中提高所有 Qwen 模型的編碼能力。
Qwen1.5 與 HuggingFace transformers 代碼庫進行了集成。從 4.37.0 版本開始,開發者可以直接使用 transformers 庫原生代碼,而不加載任何自定義代碼(指定 trust_remote_code 選項)來使用 Qwen1.5。
在開源生態上,阿里已經與 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微調)以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有這些框架現在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平臺上使用。