成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OAI/谷歌/DeepSeek首次合體「AI夢之隊」!戰力飆升30%,碾壓一切單模型

人工智能 新聞
三個前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動態協作,通過試錯優化生成過程,有效融合群體AI智慧。

三個臭皮匠頂個諸葛亮、雙拳難敵四手。。。

這些對于人類再自然不過的群體智慧思維,似乎從來沒有發生在AI身上。

我們總是期望某個AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標榜先進性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個寫的代碼更好?

但如果,將多個AI模型的能力「融會貫通」,能否也達到三個臭AI頂個AGI的效果?

圖片

最近,一項來自于Sakana AI的研究,在推理過程中——而不是在構建——試圖將三種模型的能力整合起來。

結果令人驚訝,整合后的模型能力都遠超單個模型,三模合一的性能也好于只有兩個模型合體的性能。

圖片

Sakana AI使用一種新的推理時Scaling算法,自適應分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。

該算法使AI能夠高效地執行試錯操作,并讓多個前沿AI模型協同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當前最先進的AI模型組合起來,在ARC-AGI-2基準測試中取得了令人驚訝的成績。

多模型的得分遠超單獨的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。

圖片

論文地址:https://arxiv.org/abs/2503.04412

這種想法,曾經在在2024年關于進化模型融合的研究中得到過初期驗證,通過進化計算和模型融合,利用現有開源模型挖掘到了多模型所蘊含的巨大群體智慧。

圖片

但AB-MCTS更進一步,不僅在構建新模型時,而且在推理過程中也使用多個模型。

利用不斷進步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。

推理時Scaling

當你面對一個無法一眼看透的難題時,會怎么做?

很可能,你會花更長時間獨立思考,親身實踐、反復試錯,或是與他人協作。

那么,我們是不是也能讓AI用同樣的方式去解決難題呢?

  • 第一種方法和人類使用的「更長時間思考」策略如出一轍——通過RL生成更長的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
  • 第二種方法,是讓模型反復審視問題、不斷優化答案,甚至在必要時推倒重來。
  • 第三種則是讓LLM之間進行頭腦風暴,類似于一種「群體智慧」。

這次團隊提出的AB-MCTS,正是通過推理時Scaling技術,讓AI不僅能高效地執行試錯,還能讓多個不同的AI進行集體思考。

圖片

駕馭搜索的兩個維度:深度與廣度

目前,有兩種常見的方法可以讓LLM進行試錯:

  • 第一種,是名為「序列優化」的深度優先搜索。它利用LLM生成答案,然后對其進行反復優化。
  • 第二種,是「重復采樣」,即讓LLM根據同一個提示詞多次生成解決方案。這種廣度優先搜索,會重復地查詢LLM,但不會參考先前嘗試的結果。而LLM的隨機性,則會對同一問題會產生不同的答案。

圖片

實踐證明,無論是深入搜索(優化現有解決方案)還是擴展搜索(生成新解決方案),都能有效幫助LLM找到更優的答案。

為了將這兩者有效地結合起來,團隊提出了一種用于推理時Scaling的、更高效的全新方法——AB-MCTS。

它能根據具體問題和上下文,在深度和廣度兩個方向上進行靈活搜索。

圖片

為了實現這種靈活搜索,AB-MCTS擴展了在AlphaGo等系統中得到成功應用的蒙特卡洛樹搜索 (MCTS),并采用湯普森采樣來決定探索方向。

具體而言,在每個節點(代表初始提示詞或一個已生成的解決方案),AB-MCTS會利用概率模型來評估兩種可能行動的潛在價值:

  • 生成一個全新的解決方案
  • 或者優化一個現有的方案

隨后,從這些模型中進行采樣,根據估算出的價值來決定下一步的探索方向。

為了評估尚未生成的新方案的質量,AB-MCTS會通過混合模型和概率分布來對評估過程進行建模,從而實現真正靈活的搜索。

第三個維度:AI

為了最大化LLM作為集體智能的潛力,一個名為Multi-LLM AB-MCTS的系統應運而生。

它不僅能自適應地探索搜索方向,還能根據給定的問題和情境,選擇使用哪個LLM。

圖片

具體來說,Multi-LLM AB-MCTS的運作方式如下:

  • 步驟1:算法將決定是(1)選擇一個現有節點(深入搜索),并在下一層級重復步驟1;還是(2)從當前節點生成一個新的解決方案(擴展搜索),并進入步驟2。
  • 步驟2:選擇一個LLM。
  • 步驟3:被選中的LLM會基于父節點生成一個更優的解決方案,并對結果進行評估。這個新生成的解決方案將作為一個新節點添加到搜索樹中。

至于如何選擇模型,團隊的方法是——

  • 首先,為每種模型分配了一個獨立的概率模型,并采用類似AB-MCTS的方式使用湯普森采樣;
  • 然后,這些概率模型就會根據每個LLM在搜索過程中的表現進行更新;
  • 最終,讓表現更優的LLM被選中的可能性越來越高。

實驗結果

ARC-AGI旨在評估一種類人、靈活的智能,這種智能可以高效地進行推理并解決新問題,而不像傳統指標那樣測試特定技能或知識。

實驗采用的是更具挑戰性的ARC-AGI-2。

圖片

來自ARC-AGI-2的一個示例問題:任務是從左側的三個演示案例中推斷出共同的轉換規則,并將其應用到右側的測試案例中。

為了主要評估搜索算法的最大潛在性能,使用了Pass@k指標,該指標用于衡量在k次嘗試內是否至少找到了一個正確的解決方案。

這與ARC-AGI-2比賽的官方標準不同,后者通常采用Pass@2標準(提交兩個最終答案,其中一個是正確的)。

Pass@2方法需要從搜索結果中選擇有希望的候選方案的額外步驟。

實驗是在ARC-AGI-2的公共評估集中的120個任務上進行的。

圖片

結合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現出更高的得分。

圖片

重復采樣一直被認為是ARC-AGI中一種非常有效的方法。

事實上,在實驗中,使用o4-mini進行重復采樣成功解決了23%的問題(即生成了能夠正確轉換測試用例的Python代碼)。

這一結果遠超單次嘗試的得分,展示了重復采樣的強大能力。

AB-MCTS進一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調用后變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠為超過30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發現的一個關鍵特征是它能夠根據各個LLM在特定問題上的專長動態地分配它們。

下圖清楚地展示了這一行為:對于在演示示例中成功率較高的情況(圖的左側),觀察到對某個特定LLM的明顯偏好。

這種偏向發生的原因是在搜索過程中,算法識別出哪個LLM對于給定的問題最有效,并隨后增加該模型的使用頻率。

圖片

還有一些有趣的例子,其中單個LLM無法解決的問題在組合使用多個LLM后得以解決。

這超出了為每個問題分配最佳LLM的簡單做法。

在下面的例子中,盡管o4-mini最初生成的解答是錯誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結合前沿模型,解決原本無法解決的問題,從而推動將LLMs用作集體智能所能實現的邊界。

圖片

使用Multi-LLMAB-MCTS解決ARC-AGI-2時的搜索樹示例。

節點中的數字表示生成順序,顏色代表所選的LLM。

黃色節點表示生成了正確轉換測試用例的代碼的節點。

這是一個單一LLM均無法找到解決方案,但通過多個LLM的組合成功解決問題的示例。

圖片

多LLMAB-MCTS使得不同LLM之間能夠協作。

上圖展示了一個例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯誤解答)的基礎上改進,最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時Scaling多個前沿模型的合作來提升性能。在結合多個LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。

自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強化學習優化推理過程,開啟了繼模型擴展之后的新范式——推理時Scaling時代。

通過反復執行這些模型的推理過程,并結合多個具有獨特個性的LLMs,可以進一步提升推理性能。

盡管人類大腦本身已堪稱自然奇跡,但真正撼動時代的偉業,從不屬于孤膽英雄。

無論是將人類送上月球的阿波羅計劃,構建全球信息命脈的互聯網,還是破譯生命密碼的人類基因組計劃,這些里程碑式的成就,皆源于無數頭腦之間的協作與共鳴。

正是多樣知識的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-07 19:01:25

2020-09-16 11:46:05

AI

2014-07-21 13:19:36

2025-03-10 13:11:00

2025-04-11 09:15:00

語言模型AI數據

2018-09-18 09:52:46

Windows Pho谷歌微軟

2025-07-10 08:50:00

2024-03-19 08:18:46

GPT-5算力Altman

2018-02-07 10:31:08

IBM云存儲

2023-07-09 15:18:27

谷歌AI隱私

2025-05-07 10:12:52

英偉達模型AI

2023-06-27 13:37:17

谷歌AI

2025-03-27 09:47:23

訓練模型AI

2023-12-29 07:54:33

AI智能體人工智能

2014-11-20 17:46:08

2016-08-31 17:24:05

大數據分析

2012-12-31 11:22:58

開源開放

2020-09-11 10:55:10

useState組件前端

2025-06-27 08:45:31

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美在线一区二区三区 | 91在线视频免费观看 | 国产一区 日韩 | 久久免费精品 | 噜噜噜色网 | 欧美日韩在线精品 | 九色视频网 | 毛片一区二区 | 一区二区三区国产视频 | 国产精品久久777777 | 亚洲精品久久久久久久久久久 | 日本欧美在线观看视频 | 极品销魂美女一区二区 | 日韩精品国产精品 | 黄色片网站在线观看 | 久久亚洲一区二区 | 91麻豆精品国产91久久久更新资源速度超快 | 免费毛片网 | 天天天天操 | 国产三级大片 | 天天干天天插天天 | 午夜视频一区 | 黄色成人国产 | 网站一区二区三区 | 成年人在线观看 | 视频一二三区 | 国产成人精品网站 | 一区二区三区日韩 | 国产免费a视频 | a级毛片毛片免费观看久潮喷 | 亚洲三区视频 | 夜夜爽99久久国产综合精品女不卡 | 亚洲精品日韩在线 | 91av视频在线免费观看 | 男女国产网站 | 国产欧美一区二区三区久久手机版 | 伊人网一区 | 中文字幕在线视频一区二区三区 | 精品国产久 | 国产精品1区 | 国产在视频一区二区三区吞精 |