4B Qwen3逆襲671B DeepSeek!字節DAPO微調方法這么猛的嗎
4B小模型極限在哪里?
最新模型Jan-nano引起熱議,它在智能體任務上超過671B的最新版DeepSeek-V3 0528,在SimpleQA基準上獲得80.7分。
先來看一下它的實際表現,包括兩個任務:
- 對研究某公司目前的擴張情況,該公司的擴張正威脅著另一家公司的市場份額,并撰寫一份可能影響金融公司盡職調查流程的MBA水平報告。
- 匯總今日財經突發新聞,聚焦令人震驚的消息。
總結一下,Jan-nano的能力包括:
- 在正確的提示詞下,可以進行深度研究
- 從搜索結果中有效地獲取相關信息
- 針對MCP協議優化,可無縫集成各種MCP服務器調用工具
再來看一下官方評估結果,與它同臺競技的不是閉源方案就是DeepSeek-v3這樣的671B大型MoE模型。
目前Jan-nano取得最高分80.7%,并且作者透露下一個版本的目標是85%。
不過研究團隊Menlo Research特別提醒大家,Jan-Nano只是在這一個指標上優于Deepseek-671B,并且在測試中使用了基于MCP的方法。
我們完全理解4B模型有其局限性,但看看它能走到多遠總是很有趣的。
具體來說,Jano在Qwen3-4B上使用字節&清華開源的DAPO強化學習微調方法。
團隊稱將很快發布詳細的技術報告,敬請期待。
誰是Menlo Research?
Menlo Research是一個專注于AI和機器人技術的開放研發實驗室,其主要目標為構建機器人的”大腦”。
創始人為一對夫妻Daniel Ong與Nicole Zhu,Nicole Zhu在斯坦福讀人機交互碩士期間休學創業,此前在谷歌做過高級工程師。
Menlo Research堅持用戶擁有原則,產品都是開源的,設計為離線運行或自托管。
此前Menlo Research的核心產品是Jan,一個可以100%離線運行的開源AI助手應用。
Jan被定位為ChatGPT的替代品,曾在推出數月后,在沒有風險投資支持的情況下超過百萬次下載,
Jan的長遠愿景是成為“自驅動計算機”,實現從用戶操作計算機到計算機自主操作的轉變,具體來說,規劃中的能力包括。
- 將用戶指令轉化為直接行動
- 跨應用程序工作,無需手動切換
- 學習用戶的特定工作模式
- 自主完成重復性任務
此外,Menlo Research還在新加坡Echelon展會上展出了一款人形機器人。
Jan-nano模型下載:
https://huggingface.co/Menlo/Jan-nano
Menlo Research:https://menlo.ai