成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="2gysu"><nav id="2gysu"></nav></center>

<option id="2gysu"><wbr id="2gysu"></wbr></option>

<samp id="2gysu"><del id="2gysu"></del></samp>

<center id="2gysu"><tr id="2gysu"></tr></center>

<option id="2gysu"><th id="2gysu"></th></option>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B

發布于 2024-4-10 10:04

瀏覽

0收藏

4月9日，著名大模型開源平臺Stability.ai在官網開源了，全新類ChatGPT模型Stable LM 2 12B。

據悉，Stable LM 2 12B有120億參數，使用了英語、西班牙語、德語等7種語言2萬億tokens的訓練數據。一共有基礎模型和指令微調兩個版本，能生成文本、代碼等內容，還能作為RAG的核心來使用。

同時，Stability.ai還對之前發布的模型Stable LM 2 1.6B進行了更新，尤其是在硬件需求方面進行了大幅度優化。所以，這兩款模型非常適合小企業、個人開發者使用。其性能也超過了Qwen1.5-14B-Chat、Mistral-7B-Instruct-v0.2等知名開源同類小參數模型。

12B開源地址：??https://huggingface.co/stabilityai/stablelm-2-12b??

1.6B新版本：??https://huggingface.co/stabilityai/stablelm-2-1_6b-chat??

技術報告：??https://arxiv.org/abs/2402.17834??

在線demo：https://huggingface.co/spaces/stabilityai/stablelm-2-chat

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B-AI.x社區

StableLM 2架構介紹

?

Stable LM 2 12B/1.6B皆使用的是Transformer架構，一共24層、32個自注意力頭，并使用大量公開且多樣化大約2萬億tokens的數據集進行了預訓練。

這些數據包括Arxiv、PubMed、S2ORC、PhilPapers等學術論文數據集，以及BookCorpusOpen、PG-19、FanFics等圖書和小說數據集。

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B-AI.x社區

Stability.ai還使用了來自Web的數據集，如Cultura-X、OpenWebText2、RefinedWeb等，以及來自社交媒體和法律領域的數據集。

此外，每個數據集都有相應的權重，為每個數據集提供了詳細的統計信息，包括標記數量、訓練時長等。還使用了一種創新的分詞技術，對原始分詞器進行了擴展，以便更好地壓縮代碼和非英文語言數據。

訓練策略方面，Stability.ai使用了一種稱為“FlashAttention-2”的高效序列并行優化技術，以4096的上下文長度從頭開始訓練StableLM 2。同時訓練過程中采用BFloat16混合精度，并使用標準的AdamW優化器進行訓練。

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B-AI.x社區

模型微調階段，Stability.ai使用了監督微調（SFT）、直接偏好優化（DPO）和自我知識學習三種方法，對生成的文本進行排序，然后使用排序結果來調整模型的參數，使其生成更符合人類偏好的文本。

StableLM 2測試數據

?

Stability.ai將兩款StableLM 2 模型在ARC、HellaSwag、MMLU、TriviaQA、Winograd、GSM8K等知名測試平臺上進行了綜合測試。

零樣本和少樣本基準測試方面，StableLM 2 1.6B在綜合平均分數上獲得45.3分,在1.6B以下模型中名列前茅,但仍低于一些更大的模型如phi-2和stablelm-3b-4e1t。

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B-AI.x社區

而Stable LM 2 12B的性能超過了Qwen1.5-14B-Chat、Mistral-7B-Instruct-v0.2等模型，略低于mistralai/Mixtral-8x7B-Instruct-v0.1。

多語言基準測試：StableLM 2 1.6B在不同語種任務上的表現都很出色，在所有語種的綜合分數為40.5分,在英語任務上得分48.7分、德語39.1分、西班牙語39.0分等。

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B-AI.x社區

多輪對話基準測試：StableLM 2 1.6B與其他模型在MT-Bench多輪對話任務上進行了深度對比。StableLM 2 1.6B的綜合得分與規模明顯更大的模型如Mistral-7B和MPT-30B不相上下,在某些指標上甚至獲得了更高的分數。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/2CV1qK1po0lD7MAQA3vhfw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

無限上下文處理，2萬億token碾壓Llama 2

duhorse ? 2998瀏覽 ? 0回復
Stable Diffusion 3將在6月12日正式開源

Aceryt ? 2553瀏覽 ? 0回復
大語言模型llama-2-7b推理服務實戰

zhcs333 ? 4987瀏覽 ? 0回復
用大模型開卡車，還融了2億美元

Aceryt ? 2587瀏覽 ? 0回復
Meta 開源最強大模型Llama 3.1，參數多達 405B，超16000塊H100訓練，燃燒數億經費！小扎：堅定開源不動搖！

51CTO技術棧 ? 4269瀏覽 ? 0回復
比Stable Diffusion便宜118倍！1890美元訓出11.6億參數高質量文生圖模型

duhorse ? 2398瀏覽 ? 0回復
LG開源韓語大模型Exaone 3.0，8萬億token訓練數據

Aceryt ? 2584瀏覽 ? 0回復
專用于法律的兩個開源大模型，最高1410億參數

Aceryt ? 3348瀏覽 ? 0回復
Mistral開源首個多模態大模型—Pixtral 12B

Aceryt ? 2840瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 4814瀏覽 ? 0回復
Ai2開源OLMo 2：數據集、訓練方法、權重大放送

Aceryt ? 2375瀏覽 ? 0回復
INTELLECT-1：全球首個去中心化訓練的 10B 參數大模型

Syrupup ? 3258瀏覽 ? 0回復
艾倫人工智能研究所 (AI2) 發布 OLMo 2：在多達 5T 代幣上訓練的新系列開源 7B 和 13B 語言模型

Halo咯咯 ? 4033瀏覽 ? 0回復
Hugging Face 發布 SmolVLM：用于設備端推理的 2B 參數視覺語言模型

Halo咯咯 ? 3006瀏覽 ? 0回復
9B參數吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數據”逆襲？

Halo咯咯 ? 2178瀏覽 ? 0回復
320億參數逆襲6710億！阿里QwQ-32B開源引爆AI效率革命：單卡運行、成本降60倍，國產芯片突圍AGI

墨風如雪小站 ? 3523瀏覽 ? 0回復
【AI 界大地震】AMD 開源 30 億參數大模型 Instella：性能碾壓同類，訓練成本暴跌 80%？

Halo咯咯 ? 1887瀏覽 ? 0回復
AMD開源30億小參數模型，媲美Qwen-2.5

Aceryt ? 1644瀏覽 ? 0回復
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數減一半，一張H100就能跑，還有巨獸2萬億參數模型！

51CTO技術棧 ? 1620瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

剛剛，OpenAI發布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發布
字節跳動開源多模態AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！

下一篇：音樂版Sora！文生超逼真歌曲，可自定義歌詞、時間延長

社區精華內容

目錄

主站蜘蛛池模板：国产精品视频区 | 亚洲aⅴ一区二区 | 成人网在线观看 | 97福利在线 | 国产大片黄色 | 国产精品久久免费观看 | 在线日韩视频 | 成人精品一区二区 | 久久精品中文 | 一区二区三区福利视频 | 欧美xxxx性| aaa一区| 国产精品99久久久久久www | 99热视 | 欧美日韩国产成人 | 免费在线成人 | 久久人人网 | 亚洲电影一区 | 蜜桃特黄a∨片免费观看 | 久久国内 | 国产精品一区二区三区在线 | 日韩一区二区av | 国产精品一区二区在线播放 | 久草福利| h片在线免费看 | 国产一区不卡 | 亚洲综合网站 | 中文字幕免费视频 | 91大片| 毛片一级片 | 亚洲国产精品激情在线观看 | 中文字幕一区二区三区四区 | 亚洲日韩中文字幕一区 | 黄色a视频| 一级片视频免费观看 | 成人日b视频| 久久久国产精品一区 | www.久久国产精品 | 欧美激情精品久久久久久 | 久久99精品久久久久久 | 日韩在线观看中文字幕 |

<delect id="c0kkg"></delect>

<pre id="c0kkg"><sup id="c0kkg"></sup></pre>