成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

GPT-5涌現能力可預測？UC伯克利僅使用當前模型檢查點預測未來模型

作者：機器之心 2024-12-02 08:20:00

人工智能新聞

思維鏈提出者 Jason Wei 稱贊：「這是一篇非常聰明的論文，可以預測預訓練模型的下游性能，非常有價值。因為可以使用它來預測和證明對下一個大模型訓練運行的資本投資的合理性?！?/div>

LLM 規模擴展的一個根本性挑戰是缺乏對涌現能力的理解。特別是，語言模型預訓練損失是高度可預測的。然而，下游能力的可預測性要差得多，有時甚至會出現涌現跳躍（emergent jump），這使得預測未來模型的能力變得具有挑戰性。

最近，來自加州大學伯克利分校（UC 伯克利）的研究團隊提出涌現預測的任務：是否可以僅通過使用 GPT-N 模型的檢查點（即當前模型的狀態）來預測 GPT-N+1（未來模型）是否會出現涌現能力？并在論文《Predicting Emergent Capabilities by Finetuning》中給出了答案。

論文標題：Predicting Emergent Capabilities by Finetuning
論文地址：https://arxiv.org/pdf/2411.16035

值得注意的是，這篇論文的作者包括強化學習大牛 Sergey Levine。

該研究擬合了一個參數函數 —— 涌現定律，模擬了涌現點如何隨數據量的變化而變化。

為了進行驗證，該研究使用四個標準 NLP 基準 ——MMLU、GSM8K、CommonsenseQA 和 CoLA。通過僅使用小規模 LLM 來擬合涌現定律，該研究能夠準確預測涌現點。

最后，該研究提出了兩個實際的涌現案例研究，表明該研究提出的涌現定律可用于預測更復雜的能力。

思維鏈提出者 Jason Wei 稱贊：「這是一篇非常聰明的論文，可以預測預訓練模型的下游性能，非常有價值。因為可以使用它來預測和證明對下一個大模型訓練運行的資本投資的合理性?！?/span>

論文介紹

作者首先提出了涌現預測，并將涌現預測定義為僅使用涌現前的模型檢查點，來識別發生涌現的擴展點的問題。

簡單理解就是，對于給定的 LLM，其在特定任務上具有隨機少樣本準確率，我們能否預測這個 LLM 在哪個擴展點（例如，預訓練損失）上性能將超越隨機表現？

帶著這一疑問，作者發現了這樣一個見解：在給定的任務上微調 LLM，可以將涌現發生的臨界點向著能力較低的模型移動，這意味著，通過微調，模型在涌現能力出現的時間點可以提前，這對于理解模型擴展和能力躍升的過程非常重要。微調所使用的數據量，會調節這種臨界點移動的幅度。

圖 3（左）繪制了每個模型在 GSM8K 和 MMLU 上的少樣本和微調性能與預訓練損失的關系?？梢钥吹?，微調后的模型遵循與少樣本設置類似的 ReLU 形狀。此外，在相同的預訓練損失下，所有模型大小的轉變都是一致的，這表明預訓練損失可以作為少樣本和微調設置中有效的獨立變量。

作者還發現出現涌現偏移受微調數據量的影響。圖 3（右）繪制了 3B 模型檢查點在完整數據子集上進行微調后的性能。在 MMLU 和 GSM8K 上，隨著微調數據量的增加，涌現點進一步向能力較弱的 LLM 偏移。因此，微調數據量可以調節涌現偏移。

為了將這一洞察付諸實踐，作者針對不同數量的數據對 LLM 進行了微調，并擬合了一個參數函數（即涌現定律），該函數模擬了涌現點如何隨數據量的變化而變化。

然后，根據這一發現可以推斷出在少樣本設置中關于涌現的預測。

作者利用四個標準 NLP 基準來驗證涌現定律，結果發現涌現定律可以提前準確預測涌現點，最多可提前 4 倍 FLOP。

接下來作者進行了這樣一個實驗，就預訓練 FLOPS 而言，可以提前多久成功做出預測。結果發現，可以提前預測涌現的程度在某種程度上取決于任務。

在 MMLU 和 GSM8K 上，可以分別提前最多 4.3 倍和 3.9 倍的 FLOPS 涌現出現。然而，在 CommonsenseQA 和 CoLA 上，分別只能提前預測 1.9 倍和 2.3 倍。

最后，作者還進行了真實世界的案例研究：1）低成本評估預訓練數據質量（左）。2）使用困難 APPS 編碼基準預測更復雜的能力，更接近未來前沿模型的能力（右）。

感興趣的讀者可以閱讀論文原文，了解更多研究內容。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：久久久精品一区二区三区四季av | 日本高清视频在线播放 | 91视频在线 | 亚洲精品电影在线观看 | 日本久久综合 | 国产免费一区二区三区网站免费 | 日韩一区二区在线视频 | 欧美久久久久久 | 精品成人av| 在线欧美亚洲 | 91精品国产综合久久久久久丝袜 | 精品国产乱码一区二区三区 | 国产精品成av人在线视午夜片 | 日本啊v在线 | 欧洲视频一区二区 | 国产成人免费视频网站高清观看视频 | 超碰520| 久久久久久免费精品一区二区三区 | 亚洲精品18 | 国产亚洲欧美在线视频 | 日韩欧美在线观看 | 国产人成精品一区二区三 | 久久999| 91精品国产色综合久久 | www.色婷婷| 国产精品免费一区二区 | 黑人精品欧美一区二区蜜桃 | 成人在线视频观看 | 日本爱爱视频 | 欧美国产激情 | 久久精品一区二 | 日韩欧美久久 | 亚洲综合成人网 | 综合久久一区 | 本道综合精品 | 91色在线视频 | 免费影视在线观看 | 在线免费观看成人 | 亚洲国产精品suv | 日韩欧美在线观看视频 | 午夜久久久久久久久久一区二区 |