成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小型語言模型借TTS反超大模型

人工智能
上海AI實驗室研究發現,借助測試時擴展(TTS)技術,小型語言模型在復雜推理任務中可超越大型模型,且計算量更少。研究驗證了計算最優TTS策略的有效性,并計劃擴展至其他推理任務。

在企業正在尋找在不同環境和應用中使用這些新模型的新方法時,將SLM部署在復雜推理任務中的能力將非常有用。

測試時擴展解釋

測試時擴展(TTS)是指在推理過程中為LLM提供額外的計算周期,以提高其在各種任務上的性能。領先的推理模型,如OpenAI的o1和DeepSeek-R1,使用“內部TTS”,這意味著它們被訓練為通過生成一長串思維鏈(CoT)標記來“緩慢思考”。

另一種方法是“外部TTS”,即借助(顧名思義)外部幫助來增強模型性能。外部TTS適用于將現有模型重新用于推理任務,而無需進一步微調。外部TTS設置通常由“策略模型”(即生成答案的主要LLM)和過程獎勵模型(PRM,用于評估策略模型的答案)組成。這兩個組件通過采樣或搜索方法耦合在一起。

最簡單的設置是“N中最佳”,其中策略模型生成多個答案,PRM選擇一個或多個最佳答案來組成最終響應。更先進的外部TTS方法使用搜索。在“束搜索”中,模型將答案分解為多個步驟。對于每個步驟,它采樣多個答案并通過PRM運行它們。然后,它選擇一個或多個合適的候選答案,并生成答案的下一步。而在“多樣驗證樹搜索”(DVTS)中,模型生成多個答案分支,以創建更多樣化的候選響應集,然后再將它們合成為最終答案。

什么是正確的擴展策略?

選擇正確的TTS策略取決于多個因素。研究作者對不同策略模型和PRM如何影響TTS方法效率進行了系統調查。

他們的研究結果表明,效率在很大程度上取決于策略模型和PRM。例如,對于小型策略模型,基于搜索的方法優于N中最佳。然而,對于大型策略模型,N中最佳更為有效,因為這些模型具有更好的推理能力,并且不需要獎勵模型來驗證其推理的每一步。

他們的研究結果還表明,正確的TTS策略取決于問題的難度。例如,對于參數少于70億的小型策略模型,N中最佳在簡單問題上效果更好,而束搜索在更難的問題上效果更好。對于參數在70億至320億之間的策略模型,多樣樹搜索在簡單和中等難度問題上表現良好,而束搜索在難題上表現最佳。但對于大型策略模型(720億參數及以上),N中最佳是所有難度級別的最優方法。

為什么小型模型能擊敗大型模型

基于這些發現,開發人員可以創建計算最優的TTS策略,這些策略考慮了策略模型、PRM和問題難度,以充分利用計算預算來解決推理問題。

例如,研究人員發現,采用計算最優TTS策略的Llama-3.2-3B模型在MATH-500和AIME24這兩個復雜的數學基準測試中的表現優于Llama-3.1-405B。這表明,在使用計算最優TTS策略時,一個SLM可以擊敗一個比其大135倍的模型。

在其他實驗中,他們發現,采用正確的計算最優TTS策略的5億參數Qwen2.5模型可以擊敗GPT-4o。使用相同的策略,DeepSeek-R1的15億參數蒸餾版本在MATH-500和AIME24上的表現優于o1-preview和o1-mini。

在考慮訓練和推理的計算預算時,研究結果表明,采用計算最優擴展策略時,SLM可以用少100至1000倍的計算量(FLOPS)擊敗更大的模型。

研究人員的結果表明,計算最優TTS顯著增強了語言模型的推理能力。然而,隨著策略模型的增大,TTS的改進逐漸減小。

“這表明TTS的有效性直接與策略模型的推理能力相關,”研究人員寫道,“具體而言,對于推理能力較弱的模型,擴展測試時計算量會導致顯著改善,而對于推理能力較強的模型,增益則有限。”

該研究證實,在應用計算最優測試時擴展方法時,SLM的表現可以優于更大的模型。雖然本研究側重于數學基準測試,但研究人員計劃將其研究擴展到其他推理任務,如編碼和化學。

責任編輯:龐桂玉 來源: 企業網D1Net
相關推薦

2024-12-12 09:11:58

2024-09-29 10:56:58

2020-02-11 09:30:08

微軟瀏覽器Windows

2024-12-13 15:53:58

VLM小型視覺語言模型LLM

2024-05-16 11:34:55

2023-01-04 13:33:19

AI模型

2017-06-02 10:58:00

統計語言模型

2024-12-09 08:15:43

2025-04-22 08:08:37

2024-08-09 16:22:34

2024-08-02 14:26:19

2021-10-15 15:26:10

AI 數據人工智能

2021-11-16 14:11:59

語音合成微軟人工智能

2024-03-19 13:12:36

自動駕駛模型

2024-04-16 16:14:01

人工智能LLMRAG

2025-05-22 08:05:00

Dia-1.6B文本轉語音模型TTS

2022-08-24 15:08:19

模型數據技術

2020-09-25 09:52:48

機器學習人工智能計算機

2022-06-15 07:42:00

谷歌T5模型

2024-05-30 08:40:41

大型語言模型LLM人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频久久 | av免费网站在线观看 | 99视频久 | 亚洲嫩草 | 国产一区二区三区免费观看在线 | 精品国产区 | 国产美女在线免费观看 | 91久久久久久久久久久 | 性高湖久久久久久久久3小时 | 国产91久久精品一区二区 | 99久久精品一区二区毛片吞精 | 一级做a| 欧美精品在线观看 | 久久777| 日韩欧美视频网站 | 在线欧美亚洲 | 日韩成人在线网址 | 免费一二区 | 在线色网站 | 成人性生交大片免费看r链接 | 欧美成人a∨高清免费观看 91伊人 | 日韩精品在线播放 | 欧美日韩一区二区三区四区 | 日本中文字幕在线观看 | 一区二区三区免费观看 | 东方伊人免费在线观看 | 亚洲国产精品久久久 | 日本国产欧美 | 国产成人精品久久二区二区91 | 正在播放一区二区 | 欧美极品一区二区 | 中文字幕亚洲精品在线观看 | 亚洲综合一区二区三区 | 中文字幕成人在线 | 在线观看中文字幕一区二区 | 欧美理伦片在线播放 | 在线视频一区二区 | 国产精品视频一二三区 | 国产农村一级片 | 精品国产一区二区在线 | 日日av|