大概是最全的開源大模型LLM盤點了吧!
LLM(Large Language Model, 大型語言模型)是指那些規模龐大、參數數量眾多的深度神經網絡模型,用于理解和生成自然語言文本。在自然語言處理(NLP)領域有著廣泛的應用,因其強大的語言理解和生成能力,能夠處理各種復雜的文本任務,包括但不限于翻譯、問答、文本摘要、對話、文本分類、情感分析、代碼生成、創作輔助等。其主要功能和特點如下:
架構特點:
LLM主要基于Transformer架構,該架構由Vaswani等人在2017年的論文《Attention is All You Need》中提出。Transformer通過自注意力機制(Self-Attention)來捕捉文本中的長距離依賴關系,無需像循環神經網絡(RNN)那樣逐詞遞歸處理,從而實現了并行計算,大大提高了訓練和推理速度。典型的LLM結構包括:
- Encoder-Decoder結構:如用于機器翻譯的模型。Encoder將輸入文本編碼成一個固定長度的上下文向量,Decoder 則依據該上下文向量生成目標語言的文本輸出。
- Encoder-only結構:如BERT等。主要用于文本理解任務,如文本分類、命名實體識別、問答系統中的問題理解等。Encoder-only模型通過雙向編碼整個輸入文本,生成具有上下文信息的隱藏狀態,這些隱藏狀態可以被后續任務特定的層(如分類層、標記層等)利用來進行預測。
- Decoder-only結構:如GPT系列模型,用于生成文本、補全句子、撰寫文章等任務。這類模型直接根據給定的提示(prompt)或前文上下文生成連續的文本輸出。
參數規模
LLM的“大型”體現在其巨大的參數量,通常在數十億到數千億之間。例如,GPT-3(Generative Pretrained Transformer 3)擁有約1750億個參數,而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通義千問等,參數量可能更大。大規模參數使得模型能夠學習到更豐富的語言規律和模式,提高其泛化能力和表達復雜語言結構的能力。
預訓練與微調
LLM通常遵循“預訓練-微調”的范式:
- 預訓練:模型首先在大規模無標注文本數據(如互聯網抓取的文本、書籍、百科等)上進行自我監督學習,通過自回歸語言建模任務(預測下一個詞的概率)或掩碼語言建模任務(預測被遮蔽詞語的概率)來學習語言的通用表示。
- 微調:預訓練后的模型可以針對特定任務進行微調,即在特定領域的有標注數據上進一步訓練,調整模型參數以適應特定任務的需求,如問答系統的回答生成、文本分類任務的標簽預測等。
應用場景
LLM在實際中主要應用在以下場景:
- 生成文本:創作詩歌、故事、新聞文章、代碼片段等。
- 理解與問答:解答各類問題,提供精準的信息檢索和知識解析能力。
- 對話交互:進行自然、流暢的人機對話,模擬人類對話風格,用于客戶服務、虛擬助手、教育輔導等領域。
- 文本翻譯:實現高質量的跨語言翻譯,無需顯式對齊的平行語料。
- 文本摘要:自動生成文本摘要,提煉關鍵信息。
- 代碼生成:根據自然語言描述編寫或補全代碼,助力編程和軟件開發。
筆者在這里對目前的開源大模型LLM進行了一個全面、系統的整理,與大家分享~
國外開源模型
模型鏈接 | 模型描述 |
OpenSora | 高效復現類Sora視頻生成的完全開源方案 |
GROK | 3140億參數的混合專家模型,迄今參數量最大的開源LLM |
Gemma | 谷歌商場開源模型2B,7B免費商用,開源第一易主了 |
Mixtral | Mistral AI的突破性大模型,超越GPT3.5,重新定義人工智能性能和多樣性 |
Mistral7B | “歐洲OpenAI”的“最強7B開源模型”,全面超越13B的Llama2 |
LLama2 | Open Meta帶著可商用開源的羊駝2模型來了~ |
LLama | Meta開源指令微調LLM,規模70億到650億不等 |
WizardLM | 微軟新發布13B,登頂AlpacaEval開源模型Top3,使用ChatGPT對指令進行復雜度進化微調LLama2 |
Falcon | 阿聯酋技術研究所推出,3.5萬億token訓練,性能直接碾壓LLaMA2 |
Vicuna | Alpaca前成員等開源以LLama13B為基礎使用ShareGPT指令微調的模型,提出了用GPT4來評測模型效果 |
OpenChat | 80k ShareGPT對話微調LLama-2 13B開源模型中的戰斗機 |
Guanaco | LLama 7B基座,在alpaca52K數據上加入534K多語言指令數據微調 |
MPT | MosaicML開源的預訓練+指令微調的新模型,可商用,支持84k tokens超長輸入 |
RedPajama | RedPajama項目既開源預訓練數據后開源3B,7B的預訓練+指令微調模型 |
koala | 使用alpaca、HC3等開源指令集+ShareGPT等ChatGPT數據微調llama,在榜單上排名較高 |
ChatLLaMA | 基于RLHF微調了LLaMA |
Alpaca | 斯坦福開源的使用52k數據在7B的LLaMA上微調得到 |
Alpaca-lora | LORA微調的LLaMA |
Dromedary | IBM self-aligned model with the LLaMA base |
ColossalChat | HPC-AI Tech開源的Llama+RLHF微調 |
MiniGPT4 | Vicuna+BLIP2 文本視覺融合 |
StackLLama | LLama使用Stackexchange數據+SFT+RL |
Cerebras | Cerebras開源了1億到130億的7個模型,從預訓練數據到參數全開源 |
Dolly-v2 | 可商用7b指令微調開源模型在GPT-J-6B上微調 |
OpenChatKit | openai研究員打造GPT-NoX-20B微調+6B審核模型過濾 |
MetaLM | 微軟開源的大規模自監督預訓練模型 |
Amazon Titan | 亞馬遜在aws上增加自家大模型 |
OPT-IML | Meta復刻GPT3,up to 175B, 不過效果并不及GPT3 |
Bloom | BigScience出品,規模最大176B |
BloomZ | BigScience出品, 基于Bloom微調 |
Galacia | 和Bloom相似,更針對科研領域訓練的模型 |
T0 | BigScience出品,3B~11B的在T5進行指令微調的模型 |
EXLLama | Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight |
LongChat | llama-13b使用condensing rotary embedding technique微調的長文本模型 |
MPT-30B | MosaicML開源的在8Ktoken上訓練的大模型 |
國內開源模型
模型鏈接 | 模型描述 |
BayLing | 中科院開源,性能媲美GPT-3.5,基于LLama7B/13B,增強的語言對齊的英語/中文大語言模型 |
GLM | 清華發布的中英雙語雙向密集模型,具有1300億個參數,使用通用語言模型(GLM)算法進行預訓練。它旨在支持在單臺 A100(40G * 8)或V100(32G * 8)服務器上支持 130B 參數的推理任務。 |
XWin-LM | 一款基于Llama2微調的語言模型,成功在斯坦福AlpacaEval上擊敗了GPT-4,成為新的榜首模型 |
XVERSE | 元象科技自主研發的支持多語言的大語言模型(Large Language Model),參數規模為650億,底座模型 XVERSE-65B |
XVERSE-256K | 最大支持 256K 的上下文窗口長度,約 25w 字的輸入內容,可以協助進行文獻總結、報告分析等任務 |
ChatGLM3 | 智譜AI訓練的第三代大型語言模型,它不僅能理解和生成人類語言,還能執行代碼、調用工具,并以markdown格式進行響應 |
ChatGLM2 | 具備強大的問答和對話功能,擁有最大32K上下文,并且在授權后可免費商用! |
ChatGLM | 清華開源的、支持中英雙語的對話語言模型,使用了代碼訓練,指令微調和RLHF |
Orion-14B-Base | 具有140億參數的多語種大模型,該模型在一個包含2.5萬億token的多樣化數據集上進行了訓練,涵蓋了中文、英語、日語、韓語等多種語言。 |
Baichuan2 | 百川第二代也出第二個版本了,提供了7B/13B Base和chat的版本 |
Baichuan | 百川智能開源7B大模型可商用免費 |
ziya2 | 基于Llama2訓練的ziya2它終于訓練完了 |
ziya | IDEA研究院在7B/13B llama上繼續預訓練+SFT+RM+PPO+HFTT+COHFT+RBRS |
Qwen1.5-MoE-A2.7B | Qwen推出MOE版本,推理更快 |
Qwen1.5 | 通義千問升級1.5,支持32K上文 |
Qwen1-7B+14B+70B | 阿里開源,可商用,通義千問7B,14B,70B Base和chat模型 |
InternLM2 7B+20B | 商湯的書生模型2支持200K |
Yuan-2.0 | 浪潮發布Yuan2.0 2B,51B,102B |
YI-200K | 元一智能開源超長200K的6B,34B模型 |
YI | 元一智能開源34B,6B模型 |
DeepSeek-MOE | 深度求索發布的DeepSeekMoE 16B Base和caht模型 |
DeepSeek | 深度求索發布的7B,67B大模型 |
LLama2-chinese | 沒等太久中文預訓練微調后的llama2它來了~ |
YuLan-chat2 | 高瓴人工智能基于Llama-2中英雙語繼續預訓練+指令微調/對話微調 |
BlueLM | Vivo人工智能實驗室開源大模型 |
zephyr-7B | HuggingFace 團隊基于 UltraChat 和 UltraFeedback 訓練了 Zephyr-7B 模型 |
Skywork | 昆侖萬維集團·天工團隊開源13B大模型可商用 |
Chinese-LLaMA-Alpaca | 哈工大中文指令微調的LLaMA |
Moss | 為復旦正名!開源了預訓練,指令微調的全部數據和模型。可商用 |
InternLM | 書生浦語在過萬億 token 數據上訓練的多語千億參數基座模型 |
Aquila2 | 智源更新Aquila2模型系列包括全新34B |
Aquila | 智源開源7B大模型可商用免費 |
UltraLM系列 | 面壁智能開源UltraLM13B,獎勵模型UltraRM,和批評模型UltraCM |
PandaLLM | LLAMA2上中文wiki繼續預訓練+COIG指令微調 |
XVERSE | 據說中文超越llama2的元象開源模型13B模型 |
BiLLa | LLama詞表·擴充預訓練+預訓練和任務1比1混合SFT+指令樣本SFT三階段訓練 |
Phoenix | 港中文開源鳳凰和奇美拉LLM,Bloom基座,40+語言支持 |
Wombat-7B | 達摩院開源無需強化學習使用RRHF對齊的語言模型, alpaca基座 |
TigerBot | 虎博開源了7B 180B的模型以及預訓練和微調語料 |
Luotuo-Chinese-LLM | 冷子昂@商湯科技, 陳啟源@華中師范大學以及李魯魯@商湯科技發起的中文大語言模型開源項目,包含了一系列大語言模型、數據、管線和應用 |
OpenBuddy | Llama 多語言對話微調模型 |
Chinese Vincuna | LLama 7B基座,使用Belle+Guanaco數據訓練 |
Linly | Llama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7個指令微調數據集訓練 |
Firefly | 中文2.6B模型,提升模型中文寫作,古文能力,待開源全部訓練代碼,當前只有模型 |
Baize | 使用100k self-chat對話數據微調的LLama |
BELLE | 使用ChatGPT生成數據對開源模型進行中文優化 |
Chatyuan | chatgpt出來后最早的國內開源對話模型,T5架構是下面PromptCLUE的衍生模型 |
PromptCLUE | 多任務Prompt語言模型 |
PLUG | 阿里達摩院發布超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流 |
CPM2.0 | 智源發布CPM2.0 |