一大堆Chinese Llama3正在襲來
寫在前面
大家好,我是劉聰NLP。
Llama3模型已經開源,可以就在這短短的兩天之內,就出現了很多Chinese-Llama3 repo,開源社區也是相當的卷。
再看到Llama3相關報告的時候,就預料到會有很多Chinese-Llama3,因為Llama3對中文十分不友好,15T Tokens的訓練數據,僅有5%(750B Tokens)是其他語言,那么中文就更少了。
當時還抖激靈,說先開個repo占個坑(其實是想做但沒卡)
很多網友們測試,也發現Llama3能力很強,可以理解中文問題的意思,但輸出內容就會是英文,在提示詞中強調用中文的情況下,會使用中文回答,但不穩定,有時會出現中英文結合的情況。
中文問題
強調中文回答
強調中文回答-但輸出英文
強調中文回答-但輸出英文
可想而知,開源社區會對Llama3進行中文增強(畢竟llama3基座很強),當然還是那幾步:擴充中文詞表、中文數據continue-pretrain、中文sft。
當然就像Llama2出來的時候一樣,會帶來很多機遇,借助Llama3的名頭,還是可以肝出不少內容的。
下面先簡單對Llama3進行介紹,再給大家分享一些已經開源的Chinese-Llama3項目。
Llama3
Llama3模型目前共開源了8B和70B兩個參數規模的模型,400B參數規模的模型還在訓練中。MetaAI也表示接下來的幾個月里,將發布多個具有新功能的模型,包括多模態、多語言對話能力、更長的上下文窗口以及更強的綜合能力的模型。
Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B
- 結構與Llama2基本一致,詞表大小擴充到128K,8B和70B大小的模型中都采用了分組查詢注意力(GQA),最大長度8K。
- 15T Tokens進行模型預訓練,整體是Llama2的7倍,代碼數據是Llama2的4倍,其中5%的數據由其他30種語言組成。
- 訓練優化(數據并行、模型并行和流水線并行)實現同時在16K個GPU上訓練,每個GPU的計算利用率超過400 TFLOPS。最終在24K個GPU上訓練,相比于Llama2訓練效率提高了約三倍。
llmsys對戰
暫時投票還有點少,但匿名PK榜單效果已經很逆天了,暫時成為開源之最。
Chinese-Llama3
下面放幾個已經開源權重的Chinese-Llama3,這才兩天,后面會越來越多,現在還有一些repo在占坑。
CrazyBoyM/llama3-Chinese-chat
Github: https://github.com/CrazyBoyM/llama3-Chinese-chat
大佬們真實太肝了,目前涉及的版本是base和instruct模型利用中文數據直接SFT。
- 2024-04-19 下午1點:世界上首個llama3 中文版訓練完成,晚上沒睡覺哈哈,使用170k+高質量多輪中文對話數據連夜訓練得到。
- 2024-04-20 早上7點:v2版訓練完成。
- 2023-04-20 晚上23點:instruct 中文版訓練完成。
數據集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的數據。
UnicomAI/Unichat-llama3-Chinese
Github: https://github.com/UnicomAI/Unichat-llama3-Chinese
中國聯通AI創新中心開源,目前版本應該也是直接SFT版本,暫不清楚是基于base模型還是instruct模型。說后續會更新64K版本、增量預訓練版本。
數據量未知,但表明是高質量指令數據(覆蓋多個領域和行業),微調指令數據經過嚴格的人工篩查(如果真人工,是個大工程)。
BoyangZ/llama3-chinese
HF: https://huggingface.co/BoyangZ/llama3-chinese
僅通過silk-road/Wizard-LM-Chinese-instruct-evol數據訓練2個epoch進行中文測試。其中,maxlenght=2k、bs=8、steps=500。
寫在最后
開源社區真的太卷了,上面兩個項目都號稱首個Chinese-Llama3,但暫時開源的還是Chinese-Llama3-8B為主,也可以理解,畢竟8B訓練的更快。
期待后面更多的Chinese-Llama3出來,相信不久ymcui、lily、firefly、 IDEA等都會開中文Llama3吧。
本文轉載自 ??NLP工作站??,作者: 劉聰NLP
