Kimi又上新!搶先實測視覺思考模型k1,甚至比o1更聰明
用強化學習,改變大模型技術范式。
國產大模型,正在引領 AI 技術新方向。
今天上午,月之暗面 Kimi 正式發布了視覺思考模型 k1,并已經上線了最新版的網頁版以及安卓和 iOS APP。用戶只需要在對話框中輸入 @,然后選擇「Kimi 視覺思考版」即可開始自己的 AI 視覺推理之旅。這是繼上個月 k0-math 發布之后,Kimi 在推理模型上跨出的又一大步。
它是 Kimi 的首個視覺思考模型,在 k0-math 的基礎上,k1 的推理能力不僅大大提升,還突破了數學題的范圍,進入了更廣闊的天地。
據介紹,k1 模型基于強化學習技術打造,原生支持端到端圖像理解和思維鏈技術,并將能力擴展到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中,初代 k1 模型的表現超過了全球標桿模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。
此外,k1 的圖像理解能力還可以解決之前 kimi 數學推理模型 k0-math 無法解決的許多幾何圖形問題。在基礎教育各階段的幾何和圖形題專項基準能力測試中,k1-preview 成績打平或超過了 OpenAl 的 o1 模型。
除了推理能力大幅提升,k1 的強大視覺能力也值得稱道。它可以識別各種真實的拍題場景,處理各種復雜的狀況,比如照片圖像不清晰、多題一起拍、手寫字跡干擾,甚至純手寫的題目。
更重要的是,k1 的強大推理能力與視覺能力還以一種端到端的方式組合到了一起,這意味著我們可以直接理解用戶輸入的圖片信息并進行深度推理,而不像之前的多階段方法那樣容易出現信息丟失的問題。
這種視覺能力和推理能力的端到端有機結合范式帶來了顯著的收益,讓 k1 在真實應用場景中的性能相比于 OpenAl 和 Anthropic 的視覺模型有了大幅提升:在仿真環境中的初級和高級的數學、物理、化學題目上,k1 的最低正確度分數(38.7 / 高級物理)也顯著高于 OpenAl 和 Anthropic 的視覺模型的最高分數(32.0 / 高級化學)。
此外,k1 還展現出了其它一些涌現能力,包括古代文獻分析、梗圖理解、基于照片推斷地點等等。這些涌現能力大大提升了 k1 在日常生活中的實用性。
k1 的分數表現著實不錯,實際表現如何呢?下面我們直接略過官方示例,親自動手檢驗一下 k1 的真實世界能力。
從做題到梗圖理解:k1 將強大視覺推理帶入日常生活
現在,我們在最新版手機 APP 或網頁版 Kimi+ 頁面上找到「Kimi 視覺思考版」,即可拍照或傳圖體驗。
Round1: 數學題
我們在網上找到了一個手寫的高中數學題來檢驗 Kimi k1 的視覺和數學推理能力。
圖源:YouTube 題中說題
龍飛鳳舞的手寫題目讓 k1 「費了些功夫」,不過最終還是得到了正確答案:
有意思的是,k1 在解答這個數學題的過程中還展現出了一定的反思能力。
Round2: 物理題
我們又找了一道高一物理題。正確答案選 C。
k1 不僅可以用正確的方式完成任務,還完整展示了推理思維鏈 CoT,讓我們不只看到答題結果,也能完整看到模型思索答案的全過程。
Round3:輔助學習化學
測了數學和物理題,化學自然也不能錯過。這一次我們不暗示任何背景信息,直接給出圖示,看看 k1 的表現如何。
結果可以說是有點驚喜了。
k1 不僅很快分析指出這是一個化學反應的圖示,而且還詳細地說明了該裝置的具體實驗目的以及圖片中各種器皿和化學物質的作用。而且對于我們的進一步追問:「如果將稀鹽酸換成稀硫酸會發生什么?」k1 也給出了超出預期的解答 —— 它不僅說明了反應過程和化學方程式,還指出了生成的硫酸鈣可能阻礙反應充分完成的問題及相關原因。
我們還進行一些稀奇古怪的測試。比如讓它識別不熟悉的瓜果蔬菜、解讀看不懂的梗圖以及分析古代文獻等。
Round4: 不熟悉的水果
下圖展示的奇葩水果名為刺角瓜,又被稱為非洲角瓜、火參果等。
把它「喂」給 k1 進行識別。k1 很快就判斷出這是非洲角瓜,但又經過一番反思,推翻之前的答案,最終猜出是火參果。
火參果和非洲角瓜本是同一種水果的不同稱呼,因此我們繼續提問:火參果是非洲角瓜嗎?
這次,k1 經過 6 步推理和驗證,終于給出正確答案。
Round5: 看不懂的梗圖
當初蘋果推出 iPhone16 時,網友拿這張梗圖來嘲諷蘋果創新「擠牙膏」,iPhone16 和 iPhone15 幾乎沒啥太大的區別。
k1 揣摩了這張梗圖背后的各種幽默元素,比如諷刺那些總是追求最新產品的人,即使這些新產品并不總是有顯著的改進;每年新產品發布時的代際差異;調侃人們對于品牌和型號的過度關注等。
對于微妙的諧音和雙關語梗,k1 也能相當出色地把握。
k1 準確地理解了這張圖背后多層趣味,比如通常推崇簡樸的僧人在喝與現代性密切關聯的咖啡所形成的反差感、咖啡因來自咖啡果以及佛教因果觀的微妙聯系。
Round6:古代文獻分析
此外,Kimi 官方還展示了一個非常有趣的涌現能力,即能夠識別和分析古老的科學手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我們在這里找了一張《天工開物》中的圖片,再次檢驗了它的這個能力。
此外,我們還讓其做了進一步的原理解析。
實測下來,我們發現,k1 的整體表現確實超出了我們的預期。另外,如果明確指示 k1「一步步地」執行分析或推理,k1 往往能夠發揮自己的更大實力。感興趣的用戶在實際使用時可不要忘記這個小技巧。
大模型的下個方向:強化學習 Scaling
當前的 AI 領域中,有關大模型「Scaling Laws 終結」的觀點正在興起。上周五,OpenAI 前首席科學家 Ilya Sutskever 又喊出「預訓練即將終結,互聯網中的數據已被利用殆盡」,引發了人們的關注和思考。
大模型的未來應該走哪個方向?現在或許已經到了不得不做抉擇的分叉口。
在月之暗面看來,規模的擴展是支撐 AI 技術在過去幾年里發展的重要因素,但 Scaling 并不只意味著模型的體量,現階段應該尋找新的有效擴展方向。
月之暗面選擇的方向是基于強化學習來擴展。如果說大模型基本的預測下一 token 方式具有一定的局限性,只基于靜態數據集無法探索較復雜的任務,那么加入強化學習的預測則可以在思考過程中生成更多數據,并實現思考能力的提升。
從模型訓練的角度看,k1 視覺思考模型的訓練分為兩個階段:先通過預訓練得到基礎模型,再在基礎模型上進行強化學習后訓練。在強化學習規模化(scaling)上取得的突破,是 k1 取得行業領先成績的關鍵原因。
在數學這樣的場景中,新形態的 AI 模型可以通過不斷試錯驗證「積累經驗」,在不用和外界交互的情況下鍛煉思考能力。就像人類在遇到難題時,先分析問題、探索不同的解決方案、嘗試各種方案、反思,不斷改進策略的方式一樣,基于強化學習技術的新一代模型,通過激勵模型生成更詳細的推理步驟,可以形成高質量的思維鏈 CoT,顯著提升了解決更復雜、更難任務的成功率。
基于強化學習的「思考模型」,未來或許還能給我們帶來更加強大的交互體驗。