字節Seed提出序貫策略優化方法,突破同傳“質量-延遲”權衡問題
AI字幕總是慢半拍,質量和延遲難以平衡是業界老問題了。
為此,香港中文大學、字節跳動Seed和斯坦福大學研究團隊出手,提出了一種面向同聲傳譯的序貫策略優化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。
在70億參數(7B)規模上實現SOTA。
實驗結果顯示,SeqPO-SiMT的翻譯質量不僅優于監督微調(SFT)的離線模型及LLaMA-3-8B,其表現甚至能媲美乃至超越Qwen-2.5-7B的離線翻譯水平。
方法:SeqPO-SiMT序貫策略優化
針對以上難點,研究團隊提出SeqPO-SiMT框架。其核心思想是將同聲傳譯任務建模為一個序貫決策問題,綜合評估整個翻譯流程的翻譯質量和延遲,并對整個決策序貫進行端到端的優化。
該方法的主要特點是:它不再孤立地評估每一步決策的好壞,而是將一整句話的翻譯過程視為一個整體,即形成一個完整決策序貫,更符合人類對同傳的評估過程。
同聲傳譯采樣階段
該框架使用一個大語言模型(LLM)充當策略模型,在每個時間步t,模型會接收新的源語言文本塊
,并基于已有的所有源文本
和之前的翻譯歷史
,來生成當前的翻譯塊
。
這個決策過程可以被形式化地表示為:
該框架的一個關鍵靈活性在于,如果模型決定等待更多上下文,輸出的可以為空,其長度完全由策略模型
自行決定。
優化階段
獎勵函數:對于一個batch內的第i個樣本,系統會通過一個在最終步驟T給予的融合獎勵來評估整個過程的優劣。這個獎勵同時評估翻譯質量(Quality)和延遲(Latency)。
具體而言,首先計算出原始的質量分和延遲分
,然后對兩者進行歸一化處理以統一量綱得到
和
,最終的獎勵被定義為:
其中,是一個超參數,用于權衡質量與延遲的重要性。
優化目標:模型的最終優化目標最大化期望獎勵,同時為了保證訓練的穩定性,目標函數中還引入了KL散度作為約束項,防止策略模型
與參考模型
偏離過遠。
這個結合最終獎勵和穩定性約束的優化過程,使得模型能夠端到端地學會一個兼顧翻譯質量與延遲的最優策略:
結果與分析:翻譯質量媲美Qwen-2.5-7B離線翻譯水平
研究團隊在多個公開的英漢互譯測試集上進行了實驗,并與多種現有同傳模型進行對比。實驗結果顯示:在低延遲水平下,SeqPO-SiMT框架生成的譯文質量相較于基線模型有明顯提升。
與多個高性能模型的離線翻譯結果進行對比,結果顯示,SeqPO-SiMT的翻譯質量不僅優于監督微調(SFT)的離線模型及LLaMA-3-8B,其表現甚至能媲美乃至超越Qwen-2.5-7B的離線翻譯水平。這表明該方法在70億參數(7B)規模上實現了業界頂尖(SoTA)的性能。
SeqPO-SiMT為解決同聲傳譯中的“質量-延遲”權衡問題提供了一個新的視角,它強調了對決策“序貫”進行整體優化的重要性。該方法對于需要進行實時、連續決策的自然語言處理任務具有一定的參考意義,并為未來開發更高效、更智能的同聲傳譯系統提供了有價值的探索。
論文鏈接:https://arxiv.org/pdf/2505.20622