狂攬1.3億美金!AlphaGo大神組隊Gemini大牛,用RL打造超級智能,英偉達搶投
正如Ilya所說,AI的下一步,就是「超級智能」。
近日,由DeepMind近12年老將、做出AlphaGo/AlphaZero/MuZero等項目的超級天才Ioannis Antonoglou,和Gemini強化學習的核心負責人Misha Laskin,聯合成立的初創Reflection AI終于浮出了水面。
Reflection AI的目標十分明確——構建超級智能自主系統!
首先,從自主編碼開始。
目前,這家初創已經融資了1.3億,投資方有紅杉資本、 Lightspeed和CRV。
如此野心的背后,是堪稱豪華的團隊陣容。
過去的十年間,團隊成員在RL和LLM領域均取得了重大突破,并為DeepMind、OpenAI等前沿AI實驗室主導構建了當時最為強大的AI系統——
那么,究竟該如何構建超級智能?
這就涉及到了這樣一個問題:究竟如何讓LLM在計算機上展現出與AlphaGo在圍棋上同等水平到自主能力?
對此,Reflection的策略是,通過RL提高LLM的自主能力。
他們相信,解決自主編碼是一個根節點問題——如果能構建一個超級智能的自主編碼系統,所有其他基于計算機的工作領域都將自然而然地解決。
DeepMind頂級研究員出走創業,估值5.55億美金
此前,這家名為Reflection AI的初創公司一直很低調。
就在剛剛,它宣布了全新融資:由紅杉資本和CRV領投的2500萬美元種子輪融資,以及由Lightspeed Venture Partners和CRV領投的1.05億美元A輪融資。
而其他投資者,包括LinkedIn聯合創始人Reid Hoffman、Scale AI首席執行官Alexandr Wang、SV Angel和英偉達的風投部門。
現在,Reflection AI的最新估值已經達到5.55億美元。
如今,已經有越來越多的科技公司押注于所謂的AI智能體,最近爆火的Manus,就反映了人們對這種幫用戶執行任務的AI的渴望。
但Reflection卻有著更為宏大使命:構建具有完全自主性的工具,而不僅僅一種協作工具或助手。
在他們看來,這種方法將更快地實現「超級人工智能」——也就是比大多數人更聰明、范圍更廣的AI。
許多大公司,比如OpenAI、Anthropic和DeepMind,都有著類似的目標。
現在,Relection已經在擁有大型編碼團隊的領域(如金融服務和技術行業)有付費客戶了。這家公司專注于自動化繁瑣和機械的工程工作,比如遷移軟件數據庫或重構代碼。
Lightspeed合伙人Raviraj Jain將在Reflection的董事會中任職,他表示,公司要做的事并不是取代工程師。而是讓工程師不再做繁重的工作,而是成為像建筑師一樣的角色,來監督大量的自主AI智能體。
如今,AI編程領域已經涌入了一大批資金充足的初創公司,而Cursor制造商Anysphere、Replit和Poolside,都在此領域頗為出名。
在Laskin看來,一般的AI助手就像定速巡航,而Reflection則致力于成為更像Waymo那樣的存在。
而紅杉資本合伙人Stephanie Zhan,也十分看好Relection。
在他看來,Reflection有潛力與從事類似工作的大型AI實驗室競爭并勝出,因為世界在短短幾年內就會變得非常不同,AI完全能自動化今天我們做的許多任務。
劍指「超級智能」
在官方博客中,Relection聯創Ioannis回顧了十年前,自己作為創始工程師加入了DeepMind的經歷。
那時,他創造了AlphaGo,第一個在圍棋游戲中超越人類世界冠軍的系統。
2016年的那一刻,是AI的轉折點,也對Reflection團隊的許多成員產生了深遠影響——他們第一次真正領悟到,超級智能的真實形態是什么樣子。
多年來,他們一直孜孜以求地構建超級智能。
Reflection將其視為一個能在計算機上完成大部分認知工作的自主系統。
它不僅能幫助自動化現有的工作,還能發現我們未曾考慮過的更好的解決方案,就像AlphaGo在圍棋中發現了新策略,擴展了人類知識,讓著名的第37手棋成為了傳奇。
Reflection相信,解決自主編碼問題將更廣泛地實現超級智能。
構建完全自主編碼系統所需的突破——如高級推理和迭代自我改進——會自然延伸到更廣泛的計算機工作類別。
一旦復雜軟件可以被自動規劃、編寫和完善,類似的能力就會無縫轉移到其他計算機驅動的任務上,加速向AGI的進展。
多年來,如何構建這樣一個系統并不明確。
然而,在過去十年中,Reflection團隊在RL和LLM方面開創了重大進步,他們相信,這些是超級智能的基本構建模塊。
從2013年到2020年,團隊用RL創建了專用超級智能系統,如Deep Q Networks、AlphaGo、AlphaZero和MuZero。
從2020年到2024年,他們以LLM的形式開發了通用智能系統,如PaLM、CharacterAI、ChatGPT和Gemini,領導了這些AI的預訓練和后訓練。
正是突破,指導了他們實現通用人工智能的策略:通過強化學習擴展大語言模型的自主能力。
作為一家公司,Reflection共同的核心信念是,最重要的評估是實際應用評估。
開創性的AI不是在真空中發展的;它需要研發與產品的協同設計。自主能力必須在真實場景中展示切實價值。
通過與用戶反饋一起迭代,他們確保這些系統不僅可靠地滿足實際需求,還有助于塑造負責任設計的AI的未來。
目前,他們的重點是一個自主編碼系統:一個實用的產品,同時也代表著向我們超級智能目標邁出的重要一步。
他們有一個簡單的兩步計劃:
- 構建一個超級智能的自主編碼系統
- 使用這一藍圖擴展到所有其他基于計算機的工作類別
如今,Reflection已經組建了一個世界級的團隊。
創始團隊
Misha Laskin:聯合創始人兼CEO
Misha Laskin于2022年加入DeepMind擔任研究科學家,負責谷歌關鍵LLM項目Gemini的RLHF和獎勵模型團隊。
他見證了初代Gemini和Gemini 1.5的誕生。
他的研究興趣是「強化學習如何為LLM和多模態模型解鎖新能力」,并致力于開發通用AI智能體。
此前,他在耶魯大學獲得學士學位,在芝加哥大學獲得理論物理學博士學位,并在加州大學伯克利分校BAIR實驗室進行AI領域的博士后研究,主攻深度強化學習和無監督學習。
2017年,他曾共同創辦了一家專注于為零售商預測產品需求的AI公司,并從BCC、Y Combinator和Salesforce Ventures獲得175萬美元風險投資。
而他也藉此被福布斯評為「30 Under 30」零售和電子商務領域的杰出人物。
Ioannis Antonoglou:聯合創始人兼CTO
近12年的老將Ioannis Antonoglou,不僅是DeepMind的創始工程師,而且也是Gemini的第四位核心開發者。
此前,他在亞里士多德大學獲得電氣和計算機工程學士和碩士學位,并在愛丁堡大學AI和機器學習碩士學位。
值得一提的是,他在DeepMind期間還獲得了倫敦大學學院AI博士學位。
超級智能是未來
Ilya曾在NeurIPS 2024上表示,超級智能(superintelligence)是公認的發展方向,也是研究人員們正在構建的東西。
從本質上來說,超級智能與現在的AI完全不同。
目前,我們擁有出色的LLM和聊天機器人,但它們也表現出某些奇怪的不可靠性——時常會感到困惑,但卻能在評估中表現出遠超人類的能力。
雖然我們還不知道如何調和這一點,但最終遲早會實現以下目標:AI將真正具備實際意義上的智能體特性,并將正學會推理。
由于推理會引入了更多的復雜性,因此一個會推理的系統,推理量越多,就會變得越不可預測。
相比之下,我們熟知的深度學習都是可以預測的。
舉個例子,那些優秀的國際象棋AI,對于最頂尖的人類棋手來說就是不可預測的。
所以,我們將來不得不面對的,是一些極其不可預測的AI系統——它們能夠從有限的數據中理解事物,同時也不會感到困惑。
同樣,自我意識也是有用的,它構成了我們自身的一部分,同時也是我們世界模型中的一部分。
當所有這些特性與自我意識結合在一起時,就會帶來與現有系統完全不同性質和特性的系統,它們將擁有令人難以置信的驚人能力。
雖然無法確定如何實現、何時實現,但這終將發生。