成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

策略學習助力LLM推理效率:MIT與谷歌團隊提出異步并行生成新范式

人工智能 新聞
研究團隊不依賴人工設計規則來識別異步生成機會,而通過策略學習讓模型自主發現并標注這些機會,系統地優化質量與速度的平衡。

金天,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士五年級學生,師從 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究機器學習與編程系統的結合。此前曾在 IBM Research 主導實現深度神經網絡在 IBM 主機上的推理部署。本科畢業于 Haverford College,獲計算機科學與數學雙學位。

鄭鈺熹,麻省理工學院 CSAIL 博士三年級學生,師從 Michael Carbin。她的研究方向為編程語言與機器學習的交叉領域。

大語言模型(LLM)的生成范式正在從傳統的「單人書寫」向「分身協作」轉變。傳統自回歸解碼按順序生成內容,而新興的異步生成范式通過識別語義獨立的內容塊,實現并行生成。

圖片

如圖所示,傳統方法(下)按順序生成所有內容,而異步生成(上)同時處理多個互不依賴的內容塊。對比順序生成,異步生成在 AlpacaEval 長度控制評測中實現 1.21-1.93× 的幾何平均提速,對應生成質量變化(勝率)為 +2.2% 至 -7.1%。

MIT 與谷歌研究團隊在最新研究 PASTA(PArallel STructure Annotation)中首次從策略學習(policy learning)角度探索異步生成范式的可能。

圖片

  • 論文標題:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding
  • 論文地址:https://arxiv.org/abs/2502.11517

研究團隊不依賴人工設計規則來識別異步生成機會,而通過策略學習讓模型自主發現并標注這些機會,系統地優化質量與速度的平衡。這種方法使 LLM 根據內容特點自適應地確定最佳異步生成策略,為生成效率優化開創學習驅動的全新路徑。

PASTA-LANG:劃分獨立內容的標記語言

研究人員首先開發了一種新的標記語言 PASTA-LANG,專為異步生成而設計。大模型使用它在生成過程中標記語義獨立塊,指示并行生成機會。這種語言包含三種核心標記:

  • <promise topic="..."/>:標記語義獨立的內容塊,通過 topic 屬性總結內容主題,大模型用它表明「這部分將會由一個獨立子線程異步生成」。
  • <async>...</async>:在 <promise> 后標識對應的異步生成的內容,表示這一部分由獨立子線程負責生成。
  • <sync/>:在主線程標記同步點,表明后續內容生成將會依賴于之前的異步生成,主線程需等待所有異步線程完成后才能繼續。

這些標記共同構成了一種「承諾-履行」的生成模式:大模型首先通過 <promise/> 標記「承諾」生成某些內容,推理系統再創建異步線程來「履行」這些承諾,最后在 <sync/> 處將異步內容組合。

圖片

如圖所示的線段長度計算案例展示了這一機制:面對計算任務(A),大模型首先識別出「坐標提取」和「長度公式」兩個可并行的獨立部分,生成相應的 <promise/> 標記(B),隨后用 <sync/> 標記(E)表明需要等待這些內容完成。圖中紅色和綠色區域(C、D)顯示了兩個異步線程并行生成的內容,最終在(F)處組合成完整解答。

這個新的標記語言簡單,可擴展性強,開啟了新的未來研究范式。

PASTA 訓練:從標注到優化的雙階段學習

圖片

如圖所示,PASTA 系統采用雙階段訓練流程,使大模型自主學習使用上述標記語言,完成異步生成。

第一階段:監督微調。研究團隊首先選取 SlimOrca 指令跟隨數據集,用 Gemini 1.5 Flash 為 100K 條樣本添加 PASTA-LANG 標記,在樣本回答中插入 <promise/><async> 和 <sync/> 標記,創建 PASTA 微調數據集。團隊隨后對 Gemma 7B 進行監督微調,得到能插入 PASTA-LANG 標記的 PASTA-SFT 模型。

第二階段:偏好優化。為優化標注策略,團隊設計了策略學習方案。團隊對每個樣本從 PASTA-SFT 模型采樣多種標注方案,然后基于兩項指標評估這些方案:理論加速比和內容質量(由 Gemini 1.5 Pro 評估)。根據評估結果,團隊構建「拒絕采樣數據集」,該數據集包含每個輸入的最佳和最差標注方案。最后,團隊用 BoNBoN 算法對 PASTA-SFT 模型進行偏好優化,得到最終的 PASTA 模型。

PASTA 推理系統:并行生成與緩存管理

推理系統設計難點。異步并行生成的主要挑戰在于如何協調多個線程高效協作。傳統方法通常需要為每個線程創建獨立的 KV 緩存池——創建新線程時必須復制主線程的前綴內容到子線程緩存池,完成后再復制結果回主線程。這兩次大規模矩陣復制操作嚴重限制了系統性能,使理論加速難以轉化為實際收益。

KV 緩存的存儲布局。PASTA 設計了交錯式 KV 緩存布局,所有線程共享單一連續內存池。系統初始以連續方式存儲用戶輸入,在推理過程中動態將不同線程在同一時間點生成的 token 交錯存儲在相鄰位置。

注意力控制與位置編碼。PASTA 通過兩個機制確保大模型正確理解多線程交錯存儲的 KV 緩存:

  • 注意力掩碼控制:限制子線程只能訪問與自己相關的內容,在<sync/>后通過移除掩碼使主線程能訪問所有子線程生成的內容。
  • 位置編碼調整:每個線程都使用獨立且連續的位置編碼,使線程處理自己的內容時,將交錯存儲的內容視為邏輯上連續的序列,確保模型能正確理解上下文。

這些設計共同確保 PASTA 能在提高速度的同時保持輸出質量。

實驗結果:Pareto 最優與可擴展性

PASTA 在性能與質量的平衡上取得了突破性成果,實驗結果表明它不僅實現了顯著加速,還在某些情況下提高了輸出質量。研究團隊在 AlpacaEval 基準上進行了全面評估,該基準包含 805 個具有代表性的指令跟隨任務。

圖片

圖片

質量-速度平衡的 Pareto 前沿。如圖所示,PASTA 通過調節質量權重參數生成了一系列的模型。在不同的生成質量的情況下,PASTA 均能提供非常可觀的加速。結果顯示,即使最注重質量的 PASTA 模型也能提供顯著加速,而最快的模型則以一定的質量犧牲換取接近 2 倍的速度提升。與基于手動設計的異步生成方案(Skeleton-of-Thought, APAR)相比,PASTA 模型展現出全面優勢。

可擴展性。研究結果展示了 PASTA 方法出色的可擴展性,如圖所示。隨著偏好優化不斷推進,PASTA 模型的性能持續提升。圖中清晰展示了從第一輪開始到第一輪結束,再到第二輪開始和第二輪后半程的整個優化過程,質量-速度的 Pareto 前沿大體持續向右上方推進。

這種穩定的改進趨勢表明,PASTA 方法具有良好的可擴展性——隨著投入更多計算資源,仍未飽和。與傳統依賴固定規則的異步解碼方法不同,PASTA 通過策略學習驅動的訓練算法提供了可持續的優化路徑,能夠有效地將額外計算資源轉化為更高的推理效率。

總結與展望

PASTA 首次證明,通過策略學習讓 LLM 自主優化生成策略,能夠突破傳統自回歸和基于規則的異步生成的效率極限。這一工作不僅為實時大模型應用提供了實用加速方案,更印證了未來 LLM 可能具備推理時自我優化能力的發展方向。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-29 03:00:00

混合推理模型LHRMAI

2024-12-12 09:00:00

2025-06-11 02:30:00

2022-05-09 11:23:43

人工智能機器學習推理

2025-02-10 13:00:00

模型訓練AI

2023-03-09 14:04:00

谷歌研究

2023-11-27 13:19:54

模型訓練

2025-04-08 09:16:00

推理模型AI

2023-09-04 12:59:03

AI數據

2024-12-19 09:48:07

2025-05-30 10:50:27

2024-10-21 11:15:00

2025-06-03 03:15:00

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-03-20 10:03:44

2025-05-29 09:14:00

AI模型訓練

2022-11-03 14:13:52

強化學習方法

2023-10-14 17:24:49

2025-06-26 09:06:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片网站在线观看 | 国产成人99久久亚洲综合精品 | 欧美精品久久久 | 男女在线网站 | 欧美日韩国产精品一区二区 | 精品久久久一区 | 精品香蕉一区二区三区 | av黄色免费 | 久久蜜桃av一区二区天堂 | www日韩欧美 | 久久综合久久久 | 久久精品网 | 日韩一区二区在线视频 | 国产高清久久 | 亚洲乱码国产乱码精品精的特点 | 91久久国产综合久久 | 亚洲欧美日韩精品久久亚洲区 | 人人干人人干人人 | 一区二区三区视频在线观看 | 91p在线观看 | 日韩中文av在线 | a级在线| 狠狠躁躁夜夜躁波多野结依 | 天天干天天爽 | 国产日韩欧美在线观看 | 97超碰人人 | 天天综合永久 | 亚洲大片一区 | 成人精品视频免费 | 欧美黄色绿像 | 日韩午夜 | 99精品视频免费观看 | 国产成人精品一区二区 | 99久9| 91在线一区二区 | 日本不卡视频在线播放 | 欧美电影在线观看网站 | 伊人成人免费视频 | 亚洲在线成人 | 超碰人人人 | 欧美精选一区二区 |