通義千問超越GPT4了？

作者：螢火架構 2024-06-11 09:20:48

當然我也沒在問題中提到我的容器啟動不起來了。但是如果容器能啟動起來，大模型也沒要讓我繞這么大的彎子，我直接啟動后修改其中的文件不就行了嗎？還要創建鏡像后再啟動一個新實例進行修改？

這幾天阿里發布了最新的通義千問大模型：通義千問2.5，據說其性能超越了GPT4的某個版本。大家可能都知道GPT4是地球上最強的大語言模型，各方面的表現都十分優秀。

通義千問的評測數據

不過超越GPT4這件事說起來可能還是有點勉強，很多媒體的證據只是在 OpenCompass 榜單上的一個主觀綜合評測得分，Qwen-Max-0403 的得分追平 GPT-4-Turbo-1106。主觀綜合的評測采用了真實人類的評測結果，Qwen-Max-0403 是通義千問的千億參數大模型，是閉源的，是4月3號的版本，最新的Qwen-Max是4月28號的版本，是通義千問2.5底層的API模型。一般來說新版本會比舊版本強，所以得出通義千問2.5超越GPT4的結論。

圖片

然后我又看了一下開源模型的榜單，比較能打的是 Qwen1.5-110B-Chat，在HuggingFace的千億預訓練模型的對比中排名第一，可以說在開源大模型中，通義千問確實很能打。不過 Qwen1.5-110B 發布的比較早，發布時間是兩個月之前，也不是當前的通義千問2.5。

圖片

鑒于通義千問2.5發布的時間還短，所以公開的評測數據還是比較少。不過阿里最近也發布了通義千問2.5的部分開源模型，并提供了一些評測指標對比。Qwen2-72B相比Qwen1.5的千億模型的性能有了大幅提升，包括中英文能力、編程能力等，超越前陣子的Llama-3-70B更是不在話下，請看下圖中的部分數據：

圖片

完整的對比在這里：https://huggingface.co/Qwen/Qwen2-72B

單說開源大模型這塊，通義的評測指標是遙遙領先的。

通義千問真的有這么強了嗎？

不過光看評測指標是不行的，很多大模型會針對評測數據集做專門的優化，實踐才是檢驗真理的唯一標準。

正好這兩天我遇到了一個技術問題：有個Docker容器實例的文件被我搞壞了，導致實例無法啟動，我想把這個搞壞的文件替換為原版本，但是我對這塊不熟，不知道該怎么辦？于是我想到了萬能的大模型。

本著信任的態度，我先使用通義千問嘗試解決這個問題，以下是我的問答：

圖片

先不說這個方法是否可行，單說這些操作就挺復雜的，創建鏡像、啟動新容器、創建新鏡像、刪除舊容器，反正我也沒操作成功。

當然我也沒在問題中提到我的容器啟動不起來了。但是如果容器能啟動起來，大模型也沒要讓我繞這么大的彎子，我直接啟動后修改其中的文件不就行了嗎？還要創建鏡像后再啟動一個新實例進行修改？通義千問無疑沒理解到位，或者把簡單的問題搞復雜了。現在通義千問回答問題時會列出幾個參考網頁，不知道是不是以為參考的文章質量不夠導致的，很多人都詬病簡體中文的語料太差，難道我不經意間就成了受害者？

無奈，看來還是錯付了信任。再次求助GPT4，同樣的問題，看看GPT4的回答：

圖片

根本就不需要那么麻煩，已經停止的容器，也能訪問它的文件系統。

實操后解決問題，簡單又快速。

當然這只是一個個例，通義千問寫代碼、解決技術問題的能力還是很強的，我也經常使用，只是它有時候會出錯。個人感覺，出錯的概率大于GPT4，我使用的過程中，GPT4基本沒有出現過大的問題。大家搞技術，有條件的還是應該用GPT4，穩定的節省時間。

使用Qwen2開源模型

阿里最近開源了一大批Qwen2模型，我們可以在huggingface下載這些模型，也可以在huggingface上體驗這些模型：https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f。

直接使用Demo

huggingface上有一些模型體驗Demo，其中Qwen2-72B 的體驗地址是：https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct。

Qwen2-72B的性能還是挺不錯的，這里分享幾個弱智吧的問題給大家看看。

1、小明的爸爸媽媽為什么不邀請小明參加他們的婚禮？

圖片

2、生魚片是死魚片嗎？

圖片

3、小明的妻子生了一對雙胞胎。以下哪個推論是正確的?

圖片

Qwen2-72B回答這幾個問題的邏輯有理有據，看不出來什么問題，回答效果確實不輸GPT4。

使用云環境鏡像

我在AutoDL上分享了一個 Text Generation WebUI 的鏡像，大家可以一鍵啟動，使用最新的 Qwen2-7B 和 GLM-4-9B模型。

Text Generation WebUI 文字生成界的SD WebUI，一個用于大型語言模型的 Gradio Web 用戶界面。支持 transformers、GPTQ、AWQ、EXL2、llama.cpp（GGUF）、Llama 等多種模型格式。

鏡像內置了一鍵啟動器，可以一鍵運行 Qwen2-7B、Qwen1.5-7B-Chat、Qwen1.5-32B-Chat、GLM-4-9B、ChatGLM3-6B、Yi-34B-Chat、 Yi-6B-Chat、Llama-3-8B-Instruct 等大語言模型，啟動后可以使用OpenAI風格的API、在瀏覽器進行聊天對話，還可以對大語言模型進行微調訓練。

鏡像地址：https://www.codewithgpu.com/i/oobabooga/text-generation-webui/yinghuoai-text-generation-webui

打開頁面后，點擊右下角的“AutoDL創建實例”，即可開啟一個GPU服務器實例，注意顯卡選擇3090或者4090，顯存需要在24G及以上才能玩的溜。

或者你也可以直接創建容器示例，在鏡像這里選擇“社區鏡像”，輸入 yinghuoai-text-generation-webui ，即可找到這個鏡像。

圖片