一大堆Llama3.1-Chinese正在襲來 精華
寫在前面
Llama3.1模型已經開源,在這短短幾天之內,也是出現了一些Llama3.1漢化的repo,開源社區也是相當的卷。
主要是Llama3.1沒有關注中文,雖然是多語言,但主要針對英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。
雖然讓Llama3.1系列模型用中文回答時,也可以正常回答,但仍然有中英文混合現象,并且詞表是真沒中文呀,中文場景下解碼效率會比較低。
咋說呢?反正也給中文大模型更多機會吧,開源社區也有更多事情可以做。
對Llama3.1進行中文增強,當然還是那幾步:擴充中文詞表、中文數據continue-pretrain、中文sft。
下面先簡單過一下Llama3.1的一些介紹和效果,再給大家分享一些已經開源的Chinese-Llama3.1項目。
Llama3.1介紹和效果
前幾天關于Llama3.1的介紹其實一大堆了,我就不過的介紹了,可以看我之前分享的兩篇文章Llama3.1系列模型正式開源,最大405B,閉源模型的統治時代將迎來結束?和淺談Llama3.1,從結構、訓練過程、影響到數據合成。
對于Llama3.1的系列模型,現在很多平臺都已經支持,如果本地沒有資源部署,可以從這些平臺上測試。下面的測試截圖均來自Hugging Chat測試結果。
HF:https://huggingface.co/chat/
雖然Llama3.1-405B模型榜單效果有很秀,但是9.9和9.11誰的大也是一本正經的的胡說八道。
不過確實是Tokenizer的問題。
其實對于個人來說比較奇怪,之前一些模型其實都強調過,數字內容按照每個單獨數字切割,不知道為啥Llama3.1沒有采用該策略。
反正GPT4也是一樣。
下面兩個弱智吧的問題,考考Llama3.1(405B),
- 石油也是油,為啥沒人用它來炒菜?
- 如果把臟話都說出來了,那么嘴是不是就干凈了
- 為什么孫悟空是中國猴子卻叫美猴王,不應該叫中猴王嗎?
- 下雨天關節疼 那我騙它是晴天不就不會疼了。
整體來說,還是比較不錯的,可以理解其中的含義,不過如果不強調中文回答,總是出現中英混雜的情況。
個人覺得,如果是公開、簡單的中文任務,Llama3.1還是可以直接使用的,但如果是比較領域、具化的場景,可能效果不會很好。
本人在自己的一個中文分類場景上,比較過Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的效果,無論是否SFT,Llama3.1-8B在中文上的效果都要比另外兩個差。
PS:個人數據結果,不是絕對,可以自行嘗試,同時也歡迎留言討論。
Chinese-Llama3.1模型
下面放幾個已經開源權重的Chinese-Llama3.1,這才兩天,后面會越來越多,現在還有一些repo在占坑。
- shenzhi-wang/Llama3.1-8B-Chinese-Chat
- shenzhi-wang/Llama3.1-70B-Chinese-Chat
- haijian06/Llama3.1-Chinese-Chat
- shareAI/llama3.1-8b-instruct-dpo-zh
但現在還是已SFT為主,在等等會有更多Chinese-Llama3.1系列模型出現,畢竟之前Chinese-Llama3已經有很多模型啦。
騙Star的機會又來啦!!!
寫在最后
Llama3.1系列模型的開源意義真是蠻大的,405B證明開源也能追該上閉源,雖然Mistral新開源的123B模型狙擊了Llama3.1-405B,但只能說開源真實原來越好了。
但是從真實使用角度來說,還是8B、70B的模型作用更直接,畢竟很多大模型真正落地上線的規模也就8B,要不然并發起來真耗不起。
那么有一個不成熟的想法,是否更大的開源模型利于哪些搞大模型AI平臺的廠商,因為自己有一套infra優化機制,專注推理,又有卡,為更多企業提供服務。而小模型才是企業可以自己玩耍的,服務器不用推太多,開源推理框架就夠用了。
最后,小扎的格局要打開呀,Mistral-123B都支持中文呦!
本文轉載自 ??NLP工作站??,作者: 劉聰NLP
