o3被曝「無視」前成果?華人博士生實名指控,謝賽寧等大牛激烈爭辯
在視覺感知方面,o3和o4-mini在思維鏈中進行圖像推理, 代表了一個重要突破。
華盛頓大學計算機科學博士生施惟佳站出來表示,o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。
論文鏈接:https://visualsketchpad.github.io/
這項發表于24年研究中,曾提出通過可視化輔助增強模型推理。一時間,這一猜測如同一石激起千層浪。
更猛烈的炮火來自滑鐵盧大學CS助理教授、谷歌DeepMind高級研究科學家陳文虎。
他表示,「OpenAI既不承認也不引用任何相關工作。這真可悲。」
領導OpenAI感知團隊的華人科學家Jiahui Yu表示:「確實不知道,但看起來很酷。」
OpenAI的內部員工Brandon McKinzie表示,一眼看上去,與我們研究的有很大不同。而且o3和o4-mini行為都是自發的表現。
隨后,這引發了關于o3視覺推理能力的大討論。
但OpenAI陷入爭議的不止是視覺推理,在數學基準測試中被爆出「作弊」!
視覺推理大辯論
首先登場的是Brandon McKinzie。
他瞥過一眼Visual Sketchpad,認為OpenAI的技術與之完全不同:
與我們之前做的事情完全不同,值得注意的是,o3和o4-mini中的行為完全是由大規模強化學習(RL)產生的。
我們只是給它們提供了訪問Python和操作圖像的能力,其余的都交給了模型自己去處理。
但華盛頓大學的博士生胡雨石(Yushi Hu),對此并不完全認同。
模型又是如何學會操作圖像的?
他猜測到OpenAI可能使用了SFT數據,和謝賽寧V*論文或可視化草稿本論文類似。
此時,另一個華人AI大牛謝賽寧加入了辯論。
他提出了「用圖思考」的更深入的思考。
謝賽寧:識別已死,視覺永生
關于「用圖思考」的概念,謝賽寧有5點進一步的思考。
1. 零樣本工具使用有局限性。
不能僅僅調用一個物體檢測器就實現視覺搜索。
這也是為什么像VisProg、ViperGPT、Visual-sketchpad這樣的方式難以泛化或擴展的原因。
它們更像是「外掛式工具調用」,而不是系統性能力。
謝賽寧在V*項目中就專注于這一點,但兩年前他還沒有意識到強化學習(RL)會變得這么強大,因此只能依靠監督微調(SFT)來訓練檢測頭。
這種方式雖然能跑通,但速度慢,訓練過程也頗為痛苦。
論文鏈接:https://arxiv.org/abs/2312.14135
2. 視覺搜索必須是多模態大模型的原生組件,且要端到端整合。
3. 如果所使用的工具本身是簡單、低層次的——比如基礎的Python圖像處理函數,而不是像Faster R-CNN 這樣的大模型——它們就可以直接被整合進端到端系統。
一旦強化學習規模化,這些簡單工具就能變成「視覺基元」(visual primitives),模型可以自由組合它們,從而構建出可擴展的視覺能力。
4. 大家應該繼續發掘這些視覺基元。
它們絕不僅僅是圖像處理函數,也應該包括對視頻、三維數據的處理方式,未來的視覺系統需要構建在更廣泛的「感知基礎件」之上。
5. 謝賽寧認為大多數傳統的視覺識別模型已經「過時」了。
正如Ross Girshick所說,它們本質上就是「解析器」(parsers)。但視覺本身沒有死,反而比以往任何時候都更有生命力、更令人興奮。
視覺識別模型已過時
此外,謝賽寧爆出了更大的消息:為OpenAI新模型「用圖思考」奠定基礎的Bowen Cheng、Ji Lin,的確與他討論過多模態基礎相關話題。
而謝賽寧的V*從GPT-4V的55%性能躍升至o3的95.7%。
看到一個艱難的基準測試被解決,他感到一種深深的滿足感:
這意味著視覺搜索,正成為多模態模型推理的一個基本組成部分,就像視覺對人類的意義一樣。
然而,他認為不要只是緊跟OpenAI的步伐。
學術界需要向前推進,構建那些不僅僅是眼下相關的東西,而是能夠塑造未來的事物——
也許還能夠啟發像OpenAI這樣的偉大公司。
V*證明學術界可以做到。
謝賽寧的推文停留在轉發微軟VP Nando de Freitas的推文:
強化學習并非一切……
類似的說法只是宣傳。
這就是對OpenAI的Brandon McKinzie的「一切能力都從RL訓練涌現」的一種委婉的反駁。
o3數學成績僅為10%,評測結果再陷爭議
除了圖像推理,o3在數學基準的成績單,也受到了外界質疑。
去年12月,OpenAI官宣o3時,聲稱模型在FrontierMath基準測試中正確率超25%。
當時,業內其他頂尖模型的得分普遍低于2%,o3的表現無疑令人矚目。
然而,這一亮眼的成績似乎只是OpenAI內部測試的「理想狀態」。
OpenAI首席研究官Mark Chen在直播中稱,「為o3配置激進的測試時計算(test-time compute)后,我們能把成績提高到25%以上。」
顯然,25%得分來自一個計算資源更強大的o3版本,也就是上周發布的滿血版。
針對滿血o3,創建FrontierMath基準的研究機構Epoch AI,發布了獨立測試結果:o3得分僅為10%,遠低于OpenAI聲稱最高成績25%。
這并不意味著,OpenAI故意造假。
OpenAI去年12月公布的基準測試中,也給出了一個與Epoch實測一致的「下界得分」。
Epoch補充說,測試結果的差異可能源于以下原因:
- OpenAI內部測試使用了更強大的框架,投入了更多測試時計算
- 測試所采用的FrontierMath數據集版本不同:OpenAI可能使用的是290題的frontiermath?2025?02?28?private;Epoch使用的是180題的frontiermath?2024?11?26。
與此同時,ARC Prize基金會在X上發帖證實,預發布版o3與公開版并非同一模型,后者「專門為聊天/產品場景調校」。
他們還指出,目前發布的各檔o3計算級別(compute tiers),都比跑基準時用的版本小。
一般而言,算力檔位越高,基準成績也會越好。
此外,OpenAI技術團隊成員Wenda Zhou在上周一次直播中坦言,相較于去年12月,經過優化后的o3更適合現實世界的用例,更側重于真實使用場景與推理速度。因此,它在基準測試上可能會出現一些「偏差」。
這樣的成績落差,引起了不少網友質疑。
但嚴格來說,問題并不在于o3的實際表現。OpenAI旗下的其他模型,如o3?mini?high和o4?mini,在FrontierMath上的表現都優于o3。
而且,奧特曼表示,計劃在未來幾周推出更強大的o3?pro。
這意味著,o3的基準測試爭議更多地是「面子問題」,而非OpenAI技術短板。
不過,這再次提醒我們:AI基準測試的結果不能只看表面,尤其當數據來自一家急于推廣服務的公司時。
基準測試,權威性何在?
其實,o3的風波并非是孤例。
科技大廠競相推出新模型吸引眼球,「基準測試爭議」在AI行業已屢見不鮮。
今年1月,Epoch還曾因在o3發布后,才披露得到了OpenAI資金支持而飽受批評。
甚至,許多為FrontierMath貢獻題目的學者,包括陶哲軒等大牛在內,直到消息公開后才得知OpenAI的介入,瞬間引發全網關于基準測試公平性質疑。
還有前段時間,Grok 3發布之后,其基準測試遭到OpenAI研究員譴責——用基于64個樣本進行多數投票刷分。
還有最近一次的烏龍,Meta用「特供版」Llama 4去刷分登上了Chatbot Arena榜單TOP 2。
有趣的是,在最新榜單中,Llama 4排名跌至32位,不滾動屏幕根本找不到它。
總而言之,基準測試「水分」已成為一個不可忽視的問題,關鍵在于每個人理性看待AI成績單。