測測Kimi新開的k0-math,你是數學模型,但我就測文本
晚上發現kimi也更新了,之前網上流傳的kimi在數學上對標o1的模型,可以測試了。
感覺有點迫于deepseek的壓力了,本來應該是國內第一個的,長推理、類o1的模型,現在變成了第二個。
模型版本叫k0-math,在數學上的效果也是對標openai-o1,官方也僅僅表示說在數學能力上較強。
來自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA
但我非要測試看看在文本推理上的效果如何。
測試界面是側邊欄的小眼鏡圖標,進來直接就可以測試,相較于deepseek-r1模型,k0-math沒有次數限制,隨便玩。
但不同之處在于,推理過程和結果就是在一起,
下面主要進行一些測試,都是在之前??測試deepseek-r1的題目??:
還是先測測數據能力
- 2024年年高考全國甲卷數學(文)試題
結果正確,
- 2024年高考全國甲卷數學(理)試題
結果正確,C方程為
;
數學測試了比較多,基本上都是正確的,并且推理過程也很完整,有自我糾錯的過程。
這類模型最有意思的地方在于推理過程,看著模型不斷推理、不斷自證、推翻、再自證的過程,真的很有意思,可以看到未來大模型的希望。
下面就是我要測試的一些文本問題了,依舊老幾樣:
- 小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
回答正確,一開始得出結論是3,但是又仔細分析了一下,自我糾正過來,推理過程我很滿意,看過我之前評測的懂得都懂。
- 用水來兌水,得到的是濃水還是稀水
結果正確,依然是相同濃度的水,其實前面也說了,沒有濃度的概念。
- 未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是
老鷹飛飛,這道題本身就有一點爭議,反正deepseek也是類似的答案,但我依然覺得沒有答到我的“心趴”上。
- 將“I love Kimi-Chat”的所有字母反過來寫
我覺得不對,我不能理解為啥要把 “I love”給翻譯一下,測了好幾次,換了問法也類似,就是“我愛”。
不知道反轉問題為啥這么難,之前的deepseek也沒對,k0-math也沒對。
- strawberry有幾個r
答案正確,數的沒錯,完美。
寫在最后
整體效果還是不錯的,數學測了一些,還蠻強的,文本推理還有點改進,但是人家畢竟也是k0-math模型,都強調數學了,我狂測文本也是有點不講道理啦。
本文轉載自 ??NLP工作站??,作者: 劉聰NLP
