Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？

發布于 2024-7-30 00:37

瀏覽

0收藏

Meta開源了Llama3.1系列模型，最大參數規模為405B，開源也是好起來了，榜單指標直逼GPT4-o。

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

開源追上閉源模型不再是夢！Llama系列模型確實是開源界的頭部，真金白銀砸出來的就是不一樣。

不過現在大家也都知道，榜單效果和真實使用效果也不是完全正比的，后面看看對lmsys戰榜單，還有大家的實測效果吧！

HF: https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

Llama3.1系列模型細節

15T Tokens預訓練；占比知識50、數學25、代碼17、語言8
8B、70B、405B的模型均采用GQA；
405B模型，有126層，詞表大小128256，隱藏層維度16384；8B和70B模型與llama3一樣就不介紹了；

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

支持上下文長度128k；
支持多語言，包括英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語；當然其他語言也可以使用，只是沒有針對性進行安全測試。
instruct模型微調使用了公開可用的指令數據集，以及超過2500萬的合成數據

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

8B模型預訓練用了146萬 GPU小時，70B模型預訓練用了700萬 GPU小時，405B模型預訓練用了3084萬 GPU小時；

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

Llama3.1系列模型效果

Llama3.1系列的8B和70B模型的效果，普遍好于Llama3系列模型。尤其是Instruct模型提升較高，特別是通用、代碼、數學和工具使用四個方面，大幅提高；額外添加的合成數據，應該是關鍵。

Llama3.1系列模型正式開源，最大405B，閉源模型的統治時代將迎來結束？-AI.x社區

模型使用

Llama3-405B模型整體結構沒有變化，所有直接transformers走起。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

當然為了加速或者節省顯存，也可以vllm、ollama、llamacpp等框架來加載量化模型，這里就不詳細介紹了。