成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擊敗GPT-4o的開源模型如何煉成?關于Llama 3.1 405B,Meta都寫在這篇論文里了

人工智能 新聞
Meta 公布了《The Llama 3 Herd of Models》論文,揭示了 Llama 3 系列模型迄今為止的研究細節。

經歷了提前兩天的「意外泄露」之后,Llama 3.1 終于在昨夜由官方正式發布了。

Llama 3.1 將上下文長度擴展到了 128K,擁有 8B、70B 和 405B 三個版本,再次以一已之力抬高了大模型賽道的競爭標準。

對 AI 社區來說,Llama 3.1 405B 最重要的意義是刷新了開源基礎模型的能力上限,Meta 官方稱,在一系列任務中,其性能可與最好的閉源模型相媲美。

下表展示了當前 Llama 3 系列模型在關鍵基準測試上的性能。可以看出,405B 模型的性能與 GPT-4o 十分接近。

圖片

與此同時,Meta 公布了《The Llama 3 Herd of Models》論文,揭示了 Llama 3 系列模型迄今為止的研究細節。

圖片

論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

接下來,讓我們看一下論文內容。

Llama3 論文亮點

1、在使用 8K 上下文長度進行預訓練后,Llama 3.1 405B 使用 128K 上下文長度進行連續訓練,且支持多語言和工具使用。

2、與以前的 Llama 模型相比,Meta 加強了預處理和預訓練數據的 Curation pipelines,以及后訓練數據的質量保證和過濾方法。

Meta 認為,高質量基礎模型的開發有三個關鍵杠桿:數據、規模和復雜性管理。

首先,與 Llama 的早期版本相比,Meta 在數量和質量兩方面改進了用于預訓練和后訓練的數據。Meta 在大約 15 萬億的多語言 Token 語料庫上對 Llama 3 進行了預訓練,相比之下,Llama 2 只使用了 1.8 萬億 Token。

此次訓練的模型規模遠大于以前的 Llama 模型:旗艦語言模型使用了 3.8 × 102? 次浮點運算(FLOPs)進行預訓練,超過 Llama 2 的最大版本近 50 倍。

基于 Scaling law,在 Meta 的訓練預算下,當前的旗艦模型已是近似計算最優的規模,但 Meta 對較小模型進行的訓練時間已經遠超計算最優的時長。結果表明,這些較小模型在相同推理預算下的表現優于計算最優模型。在后訓練階段,Meta 使用了 405B 的旗艦模型進一步提高了 70B 和 8B 模型這些較小模型的質量。

3、為了支持 405B 模型的大規模生產推理,Meta 將 16 位 (BF16) 量化為 8 位 (FP8),從而降低了計算要求,并使模型能夠在單個服務器節點上運行。

4、在 15.6T token(3.8x102?  FLOPs)上預訓練 405B 是一項重大挑戰,Meta 優化了整個訓練堆棧,并使用了超過 16K H100 GPU。

正如 PyTorch 創始人、Meta 杰出工程師 Soumith Chintala 所說,Llama3 論文揭示了許多很酷的細節,其中之一就是基礎設施的構建。

圖片

5、在后訓練中,Meta 通過多輪對齊來完善 Chat 模型,其中包括監督微調(SFT)、拒絕采樣和直接偏好優化。大多數 SFT 樣本由合成數據生成。

研究者在設計中做出了一些選擇,以最大化模型開發過程的可擴展性。例如,選擇標準的密集 Transformer 模型架構,只進行了少量調整,而不是采用專家混合模型,以最大限度地提高訓練的穩定性。同樣,采用相對簡單的后訓練程序,基于監督微調(SFT)、拒絕采樣(RS)和直接偏好優化(DPO),而不是更復雜的強化學習算法, 因為后者往往穩定性較差且更難擴展。

6、作為 Llama 3 開發過程的一部分,Meta 團隊還開發了模型的多模態擴展,使其具備圖像識別、視頻識別和語音理解的能力。這些模型仍在積極開發中,尚未準備好發布,但論文展示了對這些多模態模型進行初步實驗的結果。

7、Meta 更新了許可證,允許開發者使用 Llama 模型的輸出結果來增強其他模型。

在這篇論文的最后,我們還看到了長長的貢獻者名單:

圖片

這一系列因素,最終造就了今天的 Llama 3 系列。

當然,對于普通開發者來說,如何利用 405B 規模的模型是一項挑戰,需要大量的計算資源和專業知識。

發布之后,Llama 3.1 的生態系統已準備就緒,超過 25 個合作伙伴提供了可與最新模型搭配使用的服務,包括亞馬遜云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。

更多技術細節,可參考原論文。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-06 13:00:29

2025-04-08 02:26:00

2024-07-24 09:20:45

2024-09-19 14:00:00

模型開源代碼

2024-05-30 12:50:05

2024-12-26 07:10:00

2024-10-08 15:00:00

2024-07-23 09:20:35

2024-10-06 09:00:00

AI訓練數據

2024-07-24 13:58:25

2024-07-29 09:20:00

AI模型

2025-05-26 09:05:00

2024-10-17 14:05:34

2024-08-02 14:53:00

2024-10-17 13:30:00

2025-04-16 09:15:00

AI模型數據

2025-05-27 15:19:52

GPUMetaGPT-4o

2025-03-31 09:46:00

2023-09-11 15:57:16

人工智能模型GPT-4

2024-07-30 13:48:37

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲免费网站 | h视频在线看 | 免费特黄视频 | 国内自拍真实伦在线观看 | 一区二区免费视频 | 国产一区二区三区免费观看在线 | 欧美成人a | 一区二区三区四区国产 | 日韩精品 电影一区 亚洲 | 中文字幕欧美一区 | 午夜免费看视频 | 午夜免费福利片 | 欧美黄色一级毛片 | 99久久久久久99国产精品免 | 欧美日韩一区精品 | 高清视频一区二区三区 | 一区二区三区四区在线 | 91正在播放| 六月婷婷久久 | 精品伊人久久 | 欧美日韩精品一区 | 国产精品一区二区不卡 | 国产女人与拘做受视频 | 男女网站免费 | 日韩欧美在线一区 | 亚洲精品www久久久久久广东 | 国产欧美日韩在线播放 | 国产精品视频久久久 | 992tv人人草 久久精品超碰 | 国产特级毛片aaaaaa喷潮 | 日韩中文字幕视频在线观看 | 九九热这里 | 国产精品一区二区三区四区 | 亚洲色综合 | 亚洲欧美激情国产综合久久久 | 国产一区二区视频在线观看 | 久草在线在线精品观看 | 国产精品乱码一区二区三区 | 一二三在线视频 | 国产成人网| 久久久999国产精品 中文字幕在线精品 |