剛剛,字節旗下的豆包團隊發布了他們最新的推理模型Seed-Thinking-v1.5!
亮點很突出:200B參數擊敗DeepSeek R1(671B),不到后者參數量的三分之一!
與其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一個相對小型的專家混合(MoE)模型——激活參數為 20B,總參數規模為 200B。
Seed-Thinking-v1.5 在數學、科學和邏輯推理等“硬核”任務中表現穩定:在 AIME 2024 上取得了 86.7 分,在 Codeforces 上達到 55.0 分,在 GPQA 上達到 77.3 分,展現出在 STEM 領域和編程任務中的出色推理表現。
除了推理任務,該方法還展現出對多種任務的優秀泛化能力。例如,在非推理任務上的勝率比 DeepSeek R1 高出 8%,表明其適用范圍更廣。
此外,為了更好評估模型通用推理能力,字節專門開發了兩個內部基準:BeyondAIME 和 Codeforces。這兩個基準之后會開源,以支持后續研究。
報告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5