編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
家人們,微軟Phi-4的數學能力太逆天了。誰看了不感慨一句:小模型才是未來!
8個月前,微軟發布了Phi-3,性能超過龐然大物Llama-3,狠狠驚艷了我們一把。
8個月后,Phi-4飛躍式突破,讓所有人知道誰才是小模型唯一的王!
圖片
自幾個月前o1發布后,模型“搞定”數理化的能力已經飛升到博士級別,大模型也紛紛在推理能力上進行追趕。
而Phi-4祭出了小模型的王炸,14B小小模型,在數學推理上竟然反超多模態大模型Gemini Pro 1.5 兩分之多!
圖片
在「AI撞墻」被熱烈討論的一天,微軟另辟蹊徑,似乎告訴AI公司:別再傻傻地Scaling了!
1.14B小模型,也能懂數學推理!
Phi-4確實可以進行思維推理!
在微軟給的案例中,Phi-4在解題過程中展現了清晰的推理鏈條,成功解決了蝸牛難題!
圖片
問題:在一場由 5 只蝸牛參加的比賽中,最多可能出現一場平局,但平局可以涉及任意數量的蝸牛。例如,比賽結果可能是 Dazzler 獲得第一名,Abby、Cyrus 和 Elroy 并列第二,Bruna 獲得第五名。那么,比賽的可能結果總共有多少種?
Phi-4根據題干,先計算了沒有平局出現的情況,為120種。
然后在有一場平局的情況中,繼續按照“選擇 k 只蝸牛組成平局組”的思路分解問題,最終得出了正確回答。
這一能力表明,Phi-4在科學研究、工程和金融建模等領域未來可期!
也讓我們對端側模型的未來更加期待了!對于許多應用來說,這種針對性的卓越性能比大型模型的廣泛但較低效的能力更有價值得多。
2.模型訪問:azure獨家首發,下周登陸抱抱臉
比較可惜的是,Phi-4目前的可用性有限。
獨家首發在了微軟自家的Azure AI Foundry上使用,更多的面向科研用途。地址:
https://ai.azure.com/explore/models?&selectedCollectinotallow=phi
不過,按照計劃下周會在Hugging Face平臺上線。
這也算是微軟在用Phi-4這張王牌,給Azure AI Foundry“引流”了。
Azure AI Foundry在去年推出,作為一個集中管理的中心,旨在幫助企業級用戶管理項目、微調AI模型,并訪問Azure AI服務。
在Phi-4技術報告中,還提到了該平臺獨特的內容安全功能。主要包括:
- Prompt Shields(提示保護):幫助應對潛在的提示攻擊。
- 受保護內容檢測:識別敏感或受限制的材料。
- Groundedness Detection(扎實性檢測):確保生成內容有據可依。
3.AI墻絕不是危言聳聽:已逼近預訓練數據墻!
在Phi-4的報告中,Phi系列在性能上的“極致一躍”,被歸功于合成數據和后期訓練的提高和改進。
“在數學推理方面,Phi-4 的表現優于同類和更大型的模型,這得益于整個流程的進步,包括高質量合成數據集的使用、高質量有機數據的整理以及后期訓練的創新。”
圖片
Phi展現了模型界的一種趨勢,也反映著預訓練的尷尬之處:大規模的預訓練,通常需要海量的數據和計算資源。隨著硬件能力的提升和模型規模的擴大,雖然模型性能逐漸增強,但增益的邊際效應越來越小,即每次訓練的優化效果趨于減弱。
Scale AI 首席執行官Alexandr Wang周四在一條推文中說:"我們已經達到了預訓練數據墻。"
圖片
國內則更早展現了這個趨勢的“風聲”。此前報道,國內大模型“六小虎”中至少有兩家公司已經放棄了預訓練,開始專注于AI應用層。
AI公司越來越認識到,預訓練的燒錢帶來的價值在走低,尤其是在硬件資源有限的情況下,開發大規模預訓練模型可能難以為繼。不如守好自己的用戶,通過靈活的后期訓練和反饋迭代,扎實地做好AI產品的落地。
另外,還有一個小插曲,Phi-4是微軟Phi系列核心人物布貝克(Sébastien Bubeck),被OpenAI挖走后的首次更新!
圖片
在 2024 年加入 OpenAI 之前,Bubeck 在微軟研究院工作了近十年,離職前為微軟的人工智能副總裁。