編碼數學擊敗GPT4-Turbo!DeepSeek-Coder-v2登頂競技場最強開源編碼模型
就在剛剛,競技場排名再次刷新:
深度求索DeepSeek-Coder-v2成競技場最強開源編碼模型!
它在Coding Arena中已攀升至第4名,水平接近GPT-4-Turbo。
在編碼領域的整體性能評估中,DeepSeek-Coder-v2的評分和穩定性均位于前10,超越智譜GLM-4、Llama-3等一眾知名開源模型。
據了解,完全開源的DeepSeek-Coder-v2現提供236B和16B兩種參數規模,支持338種編程語言和128K上下文長度。
而且就在Claude 3.5 Sonnet發布同日,深度求索官網的代碼助手也第一時間上線了和“Artifacts”類似的功能(自動生成代碼并直接在瀏覽器上運行)。
比如由DeepSeek-Coder-v2直接生成經典游戲——掃雷。
(提示詞:用html實現復雜一點的掃雷游戲,數字顏色分明,有計時,有重啟按鈕)
再比如設計網頁:
總之,DeepSeek-Coder-v2尤為擅長編碼和數學。
編碼、數學擊敗GPT4-Turbo
深度求索于上周發布了DeepSeek-Coder-v2,它在編碼和數學方面擊敗了GPT4-Turbo。
在Arena-Hard-Auto排行榜上,DeepSeek-Coder-v2超過了Yi-large、Claude3-Opus、GLM-4 和Qwen2-72B。
同時,DeepSeek-Coder-v2還具有良好的通用性能,在推理和中英通用能力上位列國內第一梯隊。
當時甚至有網友怒贊:
DeepSeek-Coder-v2目前位居Aider代碼編輯排行榜榜首(僅用了4天),領先于GPT-4o和Opus。
它的基準測試結果甚至比DeepSeek官方圖表中顯示的更好。
而現在,僅過去一周時間,DeepSeek-Coder-v2正式登頂競技場最強開源編碼模型。
隨著這一登頂,其背后的公司深度求索再次引人關注。
老實說,這家公司一直很有看點。
與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創公司不同,深度求索由一家搞私募量化的投資基金發起。
當同行都在尋找AI應用落地時,深度求索卻喊出了“不做應用做研究”的口號。
短短半年時間,它發布并開源了多個百億級參數的大模型。
甚至僅憑一己之力點燃了大模型價格戰的第一把火。
具體啥情況?接下來一起扒一扒。
“價格戰導火索”深度求索
深度求索由知名私募巨頭幻方量化于2023年4月創立。
早在2019年,幻方就發布了自研深度學習訓練平臺“螢火一號”。
據稱該項目總投資近2億元,共搭載了1100塊GPU。
后來“螢火一號”升級為“二號”,搭載的GPU數則達到了約1萬張。
這意味著,單從算力看,幻方甚至比很多大廠都更早拿到了做ChatGPT的入場券。
去年11月,深度求索發布第一代大模型DeepSeek Coder,免費商用,完全開源。
緊接著12月,它又發布了參數670億的DeepSeek,主打發布即開源。
今年5月初,深度求索宣布開源第二代MoE大模型DeepSeek-V2。
沒錯,就是那個“性能比肩GPT-4 Turbo,價格卻只有GPT-4僅百分之一”的模型。
DeepSeek-V2推出后,深度求索一度被AI圈稱作“價格屠夫”,被認為是引爆大模型價格戰的導火索之一。
此外,它還推出了專為視覺與語言理解應用設計的DeepSeek-VL系列大模型。
總之,這家公司一直被視為一匹可能改變國內AI市場格局的“黑馬”。
Anthropic聯合創始人Jack Clark曾表示:
DeepSeek組建了一支團隊,他們對訓練雄心勃勃的模型所需的基礎設施有著深刻的理解。中國制造也將成為AI模型的發展趨勢。
最后,面對競技場最新排名,網友們紛紛猜測新王Claude 3.5 Sonnet在編碼上究竟表現如何?
競技場:在更了!在更了!
開源地址:https://huggingface.co/collections/deepseek-ai/deepseekcoder-v2-666bf4b274a5f556827ceeca