大概是最全的開源大模型LLM盤點了吧！

作者：郭小喵玩AI 2024-04-10 09:29:16

LLM是指那些規模龐大、參數數量眾多的深度神經網絡模型，用于理解和生成自然語言文本。

LLM(Large Language Model, 大型語言模型)是指那些規模龐大、參數數量眾多的深度神經網絡模型，用于理解和生成自然語言文本。在自然語言處理（NLP）領域有著廣泛的應用，因其強大的語言理解和生成能力，能夠處理各種復雜的文本任務，包括但不限于翻譯、問答、文本摘要、對話、文本分類、情感分析、代碼生成、創作輔助等。其主要功能和特點如下：

架構特點：

LLM主要基于Transformer架構，該架構由Vaswani等人在2017年的論文《Attention is All You Need》中提出。Transformer通過自注意力機制（Self-Attention）來捕捉文本中的長距離依賴關系，無需像循環神經網絡（RNN）那樣逐詞遞歸處理，從而實現了并行計算，大大提高了訓練和推理速度。典型的LLM結構包括：

Encoder-Decoder結構：如用于機器翻譯的模型。Encoder將輸入文本編碼成一個固定長度的上下文向量，Decoder 則依據該上下文向量生成目標語言的文本輸出。
Encoder-only結構：如BERT等。主要用于文本理解任務，如文本分類、命名實體識別、問答系統中的問題理解等。Encoder-only模型通過雙向編碼整個輸入文本，生成具有上下文信息的隱藏狀態，這些隱藏狀態可以被后續任務特定的層（如分類層、標記層等）利用來進行預測。
Decoder-only結構：如GPT系列模型，用于生成文本、補全句子、撰寫文章等任務。這類模型直接根據給定的提示（prompt）或前文上下文生成連續的文本輸出。

參數規模

LLM的“大型”體現在其巨大的參數量，通常在數十億到數千億之間。例如，GPT-3（Generative Pretrained Transformer 3）擁有約1750億個參數，而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通義千問等，參數量可能更大。大規模參數使得模型能夠學習到更豐富的語言規律和模式，提高其泛化能力和表達復雜語言結構的能力。

預訓練與微調

LLM通常遵循“預訓練-微調”的范式：

預訓練：模型首先在大規模無標注文本數據（如互聯網抓取的文本、書籍、百科等）上進行自我監督學習，通過自回歸語言建模任務（預測下一個詞的概率）或掩碼語言建模任務（預測被遮蔽詞語的概率）來學習語言的通用表示。
微調：預訓練后的模型可以針對特定任務進行微調，即在特定領域的有標注數據上進一步訓練，調整模型參數以適應特定任務的需求，如問答系統的回答生成、文本分類任務的標簽預測等。

應用場景

LLM在實際中主要應用在以下場景：

生成文本：創作詩歌、故事、新聞文章、代碼片段等。
理解與問答：解答各類問題，提供精準的信息檢索和知識解析能力。
對話交互：進行自然、流暢的人機對話，模擬人類對話風格，用于客戶服務、虛擬助手、教育輔導等領域。
文本翻譯：實現高質量的跨語言翻譯，無需顯式對齊的平行語料。
文本摘要：自動生成文本摘要，提煉關鍵信息。
代碼生成：根據自然語言描述編寫或補全代碼，助力編程和軟件開發。

筆者在這里對目前的開源大模型LLM進行了一個全面、系統的整理，與大家分享~

國外開源模型

模型鏈接	模型描述
OpenSora	高效復現類Sora視頻生成的完全開源方案
GROK	3140億參數的混合專家模型，迄今參數量最大的開源LLM
Gemma	谷歌商場開源模型2B，7B免費商用，開源第一易主了
Mixtral	Mistral AI的突破性大模型，超越GPT3.5，重新定義人工智能性能和多樣性
Mistral7B	“歐洲OpenAI”的“最強7B開源模型”，全面超越13B的Llama2
LLama2	Open Meta帶著可商用開源的羊駝2模型來了~
LLama	Meta開源指令微調LLM，規模70億到650億不等
WizardLM	微軟新發布13B，登頂AlpacaEval開源模型Top3，使用ChatGPT對指令進行復雜度進化微調LLama2
Falcon	阿聯酋技術研究所推出，3.5萬億token訓練，性能直接碾壓LLaMA2
Vicuna	Alpaca前成員等開源以LLama13B為基礎使用ShareGPT指令微調的模型，提出了用GPT4來評測模型效果
OpenChat	80k ShareGPT對話微調LLama-2 13B開源模型中的戰斗機
Guanaco	LLama 7B基座，在alpaca52K數據上加入534K多語言指令數據微調
MPT	MosaicML開源的預訓練+指令微調的新模型，可商用，支持84k tokens超長輸入
RedPajama	RedPajama項目既開源預訓練數據后開源3B，7B的預訓練+指令微調模型
koala	使用alpaca、HC3等開源指令集+ShareGPT等ChatGPT數據微調llama，在榜單上排名較高
ChatLLaMA	基于RLHF微調了LLaMA
Alpaca	斯坦福開源的使用52k數據在7B的LLaMA上微調得到
Alpaca-lora	LORA微調的LLaMA
Dromedary	IBM self-aligned model with the LLaMA base
ColossalChat	HPC-AI Tech開源的Llama+RLHF微調
MiniGPT4	Vicuna+BLIP2 文本視覺融合
StackLLama	LLama使用Stackexchange數據+SFT+RL
Cerebras	Cerebras開源了1億到130億的7個模型，從預訓練數據到參數全開源
Dolly-v2	可商用7b指令微調開源模型在GPT-J-6B上微調
OpenChatKit	openai研究員打造GPT-NoX-20B微調+6B審核模型過濾
MetaLM	微軟開源的大規模自監督預訓練模型
Amazon Titan	亞馬遜在aws上增加自家大模型
OPT-IML	Meta復刻GPT3，up to 175B, 不過效果并不及GPT3
Bloom	BigScience出品，規模最大176B
BloomZ	BigScience出品, 基于Bloom微調
Galacia	和Bloom相似，更針對科研領域訓練的模型
T0	BigScience出品，3B~11B的在T5進行指令微調的模型
EXLLama	Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight
LongChat	llama-13b使用condensing rotary embedding technique微調的長文本模型
MPT-30B	MosaicML開源的在8Ktoken上訓練的大模型

國內開源模型

模型鏈接	模型描述
BayLing	中科院開源，性能媲美GPT-3.5，基于LLama7B/13B，增強的語言對齊的英語/中文大語言模型
GLM	清華發布的中英雙語雙向密集模型，具有1300億個參數，使用通用語言模型（GLM）算法進行預訓練。它旨在支持在單臺 A100（40G * 8）或V100（32G * 8）服務器上支持 130B 參數的推理任務。
XWin-LM	一款基于Llama2微調的語言模型,成功在斯坦福AlpacaEval上擊敗了GPT-4,成為新的榜首模型
XVERSE	元象科技自主研發的支持多語言的大語言模型（Large Language Model），參數規模為650億，底座模型 XVERSE-65B
XVERSE-256K	最大支持 256K 的上下文窗口長度，約 25w 字的輸入內容，可以協助進行文獻總結、報告分析等任務
ChatGLM3	智譜AI訓練的第三代大型語言模型，它不僅能理解和生成人類語言，還能執行代碼、調用工具，并以markdown格式進行響應
ChatGLM2	具備強大的問答和對話功能，擁有最大32K上下文，并且在授權后可免費商用！
ChatGLM	清華開源的、支持中英雙語的對話語言模型，使用了代碼訓練，指令微調和RLHF
Orion-14B-Base	具有140億參數的多語種大模型，該模型在一個包含2.5萬億token的多樣化數據集上進行了訓練，涵蓋了中文、英語、日語、韓語等多種語言。
Baichuan2	百川第二代也出第二個版本了，提供了7B/13B Base和chat的版本
Baichuan	百川智能開源7B大模型可商用免費
ziya2	基于Llama2訓練的ziya2它終于訓練完了
ziya	IDEA研究院在7B/13B llama上繼續預訓練+SFT+RM+PPO+HFTT+COHFT+RBRS
Qwen1.5-MoE-A2.7B	Qwen推出MOE版本，推理更快
Qwen1.5	通義千問升級1.5，支持32K上文
Qwen1-7B+14B+70B	阿里開源，可商用，通義千問7B,14B,70B Base和chat模型
InternLM2 7B+20B	商湯的書生模型2支持200K
Yuan-2.0	浪潮發布Yuan2.0 2B，51B，102B
YI-200K	元一智能開源超長200K的6B，34B模型
YI	元一智能開源34B，6B模型
DeepSeek-MOE	深度求索發布的DeepSeekMoE 16B Base和caht模型
DeepSeek	深度求索發布的7B，67B大模型
LLama2-chinese	沒等太久中文預訓練微調后的llama2它來了~
YuLan-chat2	高瓴人工智能基于Llama-2中英雙語繼續預訓練+指令微調/對話微調
BlueLM	Vivo人工智能實驗室開源大模型
zephyr-7B	HuggingFace 團隊基于 UltraChat 和 UltraFeedback 訓練了 Zephyr-7B 模型
Skywork	昆侖萬維集團·天工團隊開源13B大模型可商用
Chinese-LLaMA-Alpaca	哈工大中文指令微調的LLaMA
Moss	為復旦正名！開源了預訓練，指令微調的全部數據和模型。可商用
InternLM	書生浦語在過萬億 token 數據上訓練的多語千億參數基座模型
Aquila2	智源更新Aquila2模型系列包括全新34B
Aquila	智源開源7B大模型可商用免費
UltraLM系列	面壁智能開源UltraLM13B，獎勵模型UltraRM，和批評模型UltraCM
PandaLLM	LLAMA2上中文wiki繼續預訓練+COIG指令微調
XVERSE	據說中文超越llama2的元象開源模型13B模型
BiLLa	LLama詞表·擴充預訓練+預訓練和任務1比1混合SFT+指令樣本SFT三階段訓練
Phoenix	港中文開源鳳凰和奇美拉LLM，Bloom基座，40+語言支持
Wombat-7B	達摩院開源無需強化學習使用RRHF對齊的語言模型, alpaca基座
TigerBot	虎博開源了7B 180B的模型以及預訓練和微調語料
Luotuo-Chinese-LLM	冷子昂@商湯科技, 陳啟源@華中師范大學以及李魯魯@商湯科技發起的中文大語言模型開源項目，包含了一系列大語言模型、數據、管線和應用
OpenBuddy	Llama 多語言對話微調模型
Chinese Vincuna	LLama 7B基座，使用Belle+Guanaco數據訓練
Linly	Llama 7B基座，使用belle+guanaco+pclue+firefly+CSL+newscommentary等7個指令微調數據集訓練
Firefly	中文2.6B模型，提升模型中文寫作，古文能力，待開源全部訓練代碼，當前只有模型
Baize	使用100k self-chat對話數據微調的LLama
BELLE	使用ChatGPT生成數據對開源模型進行中文優化
Chatyuan	chatgpt出來后最早的國內開源對話模型，T5架構是下面PromptCLUE的衍生模型
PromptCLUE	多任務Prompt語言模型
PLUG	阿里達摩院發布超大規模語言模型PLUG，上能寫詩詞歌賦、下能對答如流
CPM2.0	智源發布CPM2.0

責任編輯：趙寧寧來源：小喵學AI

LLM 開源大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看