成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通義千問超越GPT4了?

人工智能
當然我也沒在問題中提到我的容器啟動不起來了。但是如果容器能啟動起來,大模型也沒要讓我繞這么大的彎子,我直接啟動后修改其中的文件不就行了嗎?還要創建鏡像后再啟動一個新實例進行修改?

這幾天阿里發布了最新的通義千問大模型:通義千問2.5,據說其性能超越了GPT4的某個版本。大家可能都知道GPT4是地球上最強的大語言模型,各方面的表現都十分優秀。

通義千問的評測數據

不過超越GPT4這件事說起來可能還是有點勉強,很多媒體的證據只是在 OpenCompass 榜單上的一個主觀綜合評測得分,Qwen-Max-0403 的得分追平 GPT-4-Turbo-1106。主觀綜合的評測采用了真實人類的評測結果,Qwen-Max-0403 是通義千問的千億參數大模型,是閉源的,是4月3號的版本,最新的Qwen-Max是4月28號的版本,是通義千問2.5底層的API模型。一般來說新版本會比舊版本強,所以得出通義千問2.5超越GPT4的結論。

圖片圖片

然后我又看了一下開源模型的榜單,比較能打的是 Qwen1.5-110B-Chat,在HuggingFace的千億預訓練模型的對比中排名第一,可以說在開源大模型中,通義千問確實很能打。不過 Qwen1.5-110B 發布的比較早,發布時間是兩個月之前,也不是當前的通義千問2.5。

圖片圖片

鑒于通義千問2.5發布的時間還短,所以公開的評測數據還是比較少。不過阿里最近也發布了通義千問2.5的部分開源模型,并提供了一些評測指標對比。Qwen2-72B相比Qwen1.5的千億模型的性能有了大幅提升,包括中英文能力、編程能力等,超越前陣子的Llama-3-70B更是不在話下,請看下圖中的部分數據:

圖片圖片

完整的對比在這里:https://huggingface.co/Qwen/Qwen2-72B

單說開源大模型這塊,通義的評測指標是遙遙領先的。

通義千問真的有這么強了嗎?

不過光看評測指標是不行的,很多大模型會針對評測數據集做專門的優化,實踐才是檢驗真理的唯一標準。

正好這兩天我遇到了一個技術問題:有個Docker容器實例的文件被我搞壞了,導致實例無法啟動,我想把這個搞壞的文件替換為原版本,但是我對這塊不熟,不知道該怎么辦?于是我想到了萬能的大模型。

本著信任的態度,我先使用通義千問嘗試解決這個問題,以下是我的問答:

圖片圖片

先不說這個方法是否可行,單說這些操作就挺復雜的,創建鏡像、啟動新容器、創建新鏡像、刪除舊容器,反正我也沒操作成功。

當然我也沒在問題中提到我的容器啟動不起來了。但是如果容器能啟動起來,大模型也沒要讓我繞這么大的彎子,我直接啟動后修改其中的文件不就行了嗎?還要創建鏡像后再啟動一個新實例進行修改?通義千問無疑沒理解到位,或者把簡單的問題搞復雜了。現在通義千問回答問題時會列出幾個參考網頁,不知道是不是以為參考的文章質量不夠導致的,很多人都詬病簡體中文的語料太差,難道我不經意間就成了受害者?

無奈,看來還是錯付了信任。再次求助GPT4,同樣的問題,看看GPT4的回答:

圖片圖片

根本就不需要那么麻煩,已經停止的容器,也能訪問它的文件系統。

實操后解決問題,簡單又快速。

當然這只是一個個例,通義千問寫代碼、解決技術問題的能力還是很強的,我也經常使用,只是它有時候會出錯。個人感覺,出錯的概率大于GPT4,我使用的過程中,GPT4基本沒有出現過大的問題。大家搞技術,有條件的還是應該用GPT4,穩定的節省時間。

使用Qwen2開源模型

阿里最近開源了一大批Qwen2模型,我們可以在huggingface下載這些模型,也可以在huggingface上體驗這些模型:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f。

直接使用Demo

huggingface上有一些模型體驗Demo,其中Qwen2-72B 的體驗地址是:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct。

Qwen2-72B的性能還是挺不錯的,這里分享幾個弱智吧的問題給大家看看。

1、小明的爸爸媽媽為什么不邀請小明參加他們的婚禮?

圖片圖片

2、生魚片是死魚片嗎?

圖片圖片

3、小明的妻子生了一對雙胞胎。以下哪個推論是正確的?

圖片圖片

Qwen2-72B回答這幾個問題的邏輯有理有據,看不出來什么問題,回答效果確實不輸GPT4。

使用云環境鏡像

我在AutoDL上分享了一個 Text Generation WebUI 的鏡像,大家可以一鍵啟動,使用最新的 Qwen2-7B 和 GLM-4-9B模型。

Text Generation WebUI 文字生成界的SD WebUI,一個用于大型語言模型的 Gradio Web 用戶界面。支持 transformers、GPTQ、AWQ、EXL2、llama.cpp(GGUF)、Llama 等多種模型格式。

鏡像內置了一鍵啟動器,可以一鍵運行 Qwen2-7B、Qwen1.5-7B-Chat、Qwen1.5-32B-Chat、GLM-4-9B、ChatGLM3-6B、Yi-34B-Chat、 Yi-6B-Chat、Llama-3-8B-Instruct 等大語言模型,啟動后可以使用OpenAI風格的API、在瀏覽器進行聊天對話,還可以對大語言模型進行微調訓練。

鏡像地址:https://www.codewithgpu.com/i/oobabooga/text-generation-webui/yinghuoai-text-generation-webui

打開頁面后,點擊右下角的“AutoDL創建實例”,即可開啟一個GPU服務器實例,注意顯卡選擇3090或者4090,顯存需要在24G及以上才能玩的溜。

或者你也可以直接創建容器示例,在鏡像這里選擇“社區鏡像”,輸入 yinghuoai-text-generation-webui ,即可找到這個鏡像。

圖片圖片

實例啟動后,在服務器實例列表中點擊“JupyterLab”,進入一個Web頁面。

圖片圖片

在 JupyterLab 頁面中打開“啟動器”,這個鏡像內置了很多模型,默認啟動的是 Qwen2-7B-Instruct,這些模型在24G顯存下都能跑起來。如果要運行更大參數的模型,需要更多的顯存,成本比較高,有興趣的可以嘗試下。

圖片圖片

啟動成功后,我們可以看到一個Gradio的鏈接,點擊就會在瀏覽器打開 Text Generation WebUI。

圖片圖片

另外 Text Generation WebUI 還支持通過API訪問大模型,API定義兼容OpenAI協議,有興趣的請參考jupyterlab中的API使用說明。

體驗Qwen2-7B

進入Text Generation WebUI后,需要先設置一下角色,在參數(Parameters)頁簽中,選擇“AI助理”。這個AI助理是我創建的,方便進行中文對話。

圖片圖片

在聊天(Chat)頁簽的右側,有一個“Mode”,定義了大模型處理提示詞的模式,需要選擇“chat-instruct”。

圖片圖片

然后我們就可以和它聊天了。

我這里用弱智吧的問題分別對 Qwen2-7B 和 GLM-4-9B 做了測試,結果不太理想。

Qwen2-7B的測試截圖:

圖片圖片

GLM-4-9B的測試截圖:

圖片圖片

看來幾十億參數的大模型還是不夠用,模型理解能力太差,企業要用還得是百億參數的模型,理解到位才能執行正確的操作,否則就成了大家吐槽的對象。

不過大模型一直在進步,參數越來越小,性能越來越強,說不定哪天70億參數規模也能有優秀的理解能力。

大語言模型微調

微調可以讓大語言模型更符合業務的需要,包括技能和語言風格等。

以上就是本文的主要內容,做個簡單的總結。

  • 通義千問發布的2.5確實有一戰之力,只是目前發布時間不久,社區的評測數據尚未展現其真實的戰力。
  • 根據個人的使用感受,其性能表現似乎還不夠穩定,和當前的GPT4還有些差距。
  • 對于企業部署開源大模型,建議選擇百億以上的模型,從性能上看新發布的Qwen2-72B是個不錯的選擇。
  • 如果你想讓大語言模型更符合業務的需要,可以對它進行微調,注意準備好足夠的訓練數據。
責任編輯:武曉燕 來源: 螢火架構
相關推薦

2024-04-08 10:12:20

GPT4AgentAI

2023-11-01 19:03:58

GPT-4

2023-10-31 15:26:02

阿里云通義千問

2024-02-06 12:50:08

AI訓練

2024-05-21 11:35:48

阿里云通義千問

2023-05-09 15:41:03

2024-05-09 11:52:30

通義大模型通義

2025-05-30 07:40:56

2024-10-30 11:06:59

SpringAI模型

2024-10-28 08:26:55

SpringAI語言模型1. 多模型

2024-06-11 07:03:00

大模型開源Qwen2

2024-03-05 09:16:32

AI模型GPT-4

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2023-08-27 14:08:17

開源代碼Meta大模型

2023-03-16 10:38:37

GPT4ChatGPT

2023-04-11 13:40:22

阿里云大模型通義千問

2025-03-07 08:41:50

2023-04-25 15:41:59

2023-03-16 18:30:55

GPT-4ChatGPT

2023-04-07 14:01:18

ChatGPT人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久久久久 | 天天操,夜夜爽 | 国产欧美日韩综合精品一区二区 | 黄网站在线播放 | 久久一区二区三区四区 | av片网 | 91色在线| 国产一区二区精品在线观看 | 国产美女精品视频 | 性做久久久久久免费观看欧美 | 精品丝袜在线 | 免费国产一区二区 | 一区二区在线免费观看 | 精品三区| 亚洲一区二区三区在线播放 | 亚洲国产aⅴ成人精品无吗 国产精品永久在线观看 | 欧美日韩视频网站 | 国产95在线| 久久国产精品视频免费看 | 国产做a爱免费视频 | 国产激情视频网址 | 欧美日韩在线播放 | www.亚洲视频| 久久国产精品免费视频 | 日韩成人高清 | 亚洲精品一区二区三区在线 | www.久久久久久久久久久 | 日韩在线播放av | 久久精品无码一区二区三区 | 黄色一级片视频 | 成人性视频免费网站 | 在线视频 欧美日韩 | 水蜜桃久久夜色精品一区 | 亚洲福利网 | 黄色骚片| 日韩亚洲一区二区 | 男女羞羞网站 | 黑人久久久| 成人午夜免费福利视频 | 日韩精品久久久久 | 精品视频一区二区三区在线观看 |