12秒生成1萬token!谷歌推出文本「擴散模型」Gemini Diffusion,研究員:演示都得降速看
谷歌又放新大招了,將圖像生成常用的“擴散技術”引入語言模型,12秒能生成1萬tokens。
什么概念?不僅比Gemini 2.0 Flash-Lite更快。
甚至需要不得不在演示過程中放慢視頻的速度,才能看清生成過程。
這是Google DeepMind推出Gemini Diffusion:不同于以往大多數語言模型“從左到右”預測文本的生成方式,而是通過逐步優化噪聲來學習生成輸出。
傳統的自回歸模型是根據已生成的詞序列逐步預測下一個詞,每次只能生成一個詞或一個token,這種順序過程很慢,并且會限制輸出的質量和一致性。
而擴散模型的特點則是通過逐步細化噪聲學習生成,這種特點會大大提高生成速度,并且減少訓練的不確定性。
Gemini Diffusion就是利用了擴散模型這一優勢,將文本生成速度提升至2000token/秒。
官方給出了Gemini Diffusion的基準測試結果,結果顯示Gemini Diffusion的表現可與更大的模型(Gemini 2.0 Flash-Lite)相媲美,甚至速度更快。
Gemini Diffusion目前是一個實驗性演示,官方設置了訪問候補名單,感興趣的朋友可以戳文末鏈接申請體驗~
Gemini Diffusion每秒能生成2000個token
消除“從左到右”文本生成需求
與以往大多數基于自回歸的語言模型不同,Gemini Diffusion在語言模型中引入了“擴散”技術,它不是直接預測文本,而是通過逐步細化噪聲來學習生成輸出。
這種技術能夠讓模型在生成過程中快速迭代,并在生成過程中進行錯誤糾正。
這種優勢有助于模型在編輯等任務中表現出色,包括在數學和代碼環境中也能表現良好。
有一位團隊研究員展示了一個代碼示例,在這個示例中,Gemini Diffusion模型以2000 個token/秒的速度生成,這其中包括toke化、預填充、安全過濾器等開銷。
在生成過程中進行非因果推理
雖然Gemini Diffusion在生成速度上比迄今為止最快的模型還要快得多,但速度卻不是它的唯一優勢。
它能夠一次生成整個標記塊,這意味著對于用戶的提示,它能比自回歸模型做出更連貫的響應。
在迭代細化中能夠糾正生成過程中的錯誤以獲得更一致的輸出。
研究員還通過舉例說明,與僅限于一次生成一個token的自回歸模型不同,擴散可以在生成過程中進行非因果推理。
“(√(81) * (2/3))^2 + (15 - 3) / (2^2)) 等于多少?先給出答案,然后再推導出答案。”
對于基于自回歸思想的模型來說,這是一個非常難的問題,例如,GPT-4o就無法解決此問題,因為它們必須嚴格自回歸生成文本,無法跳過中間token,在生成答案之前對其進行推理。
但擴散模型的生成過程不依賴于嚴格的時序因果關系,而是通過并行或迭代式去噪實現數據生成,可以進行非因果推理以得出正確答案(答案:39)。以下是研究員提供的演示視頻。
One More Thing
實際上,自回歸確實不是LLM的唯一路徑。
此前,人大高瓴人工智能研究院、螞蟻也提出了類似研究,LLaDA是基于擴散模型的雙向模型。
語言模型逐步引入擴散技術,在未來,我們是否可以期待更多混合模型的出現呢?
官方鏈接:https://deepmind.google/models/gemini-diffusion/
體驗申請:https://docs.google.com/forms/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/viewform