新版DeepSeek-V3官方報告出爐:超越GPT-4.5,僅靠改進后訓練
剛剛,DeepSeek官方發布DeepSeek-V3模型更新技術報告。
V3新版本在數學、代碼類相關評測集成績超過GPT-4.5!
而且這只是通過改進后訓練方法實現。
DeepSeek-V3-0324和之前的DeepSeek-V3使用同樣的base模型。
打破了之前傳言該版本base模型是R2的傳言。
新版本參數量約為660B,與此前網傳的685B有所出入。
開源版本上下文長度為128K(網頁端、App和API提供 64K 上下文)。
私有化部署時只需要更新checkpoint和tokenizer_config.json(tool calls相關變動)。
目前,想要體驗這一版本模型,只需用戶登錄官方網頁、APP、小程序進入對話界面后,關閉深度思考即可體驗。API 接口和使用方式保持不變。
官方建議,此后非復雜推理任務使用V3新版本更好。
此外,官方還進一步展示了新版本在各個維度的能力。
前端開發
生成代碼可用性更高,視覺效果也更好。
中文寫作
相較于R1版有進一步優化,特別提升了中長篇的內容質量。
比如寫一篇關于蘇軾生平的散文:
中文搜索
聯網情況下,V3新版本的搜索輸出內容也更詳實準確、排版更清晰美觀。
現在寫一份3000字的市場報告也是so easy(上下滑動查看完整內容):
此外,V3新版本在工具調用、角色扮演、問答閑聊等方面也進一步提升。
今天白天不少網友也上手實測了諸多能力,比如做個小游戲:
該版本模型采用寬松的MIT開源協議。
且可直接部署在M3 Ultra的Mac Studio上。
這意味著大模型開發應用的門檻更進一步降低。
話不多說,趁著深夜,還沒睡的趕緊去體驗最新版吧~