成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了! 原創

發布于 2025-7-9 13:52
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

一秒鐘輸出高達 1100 tokens!

昨天,一款專為編碼場景設計的“相當另類”的模型成功出圈了。

等等黨,這次終于不用再苦等了~

令人萬萬沒想到的是,一直在圖像/視頻領域炙手可熱的 Diffusion 模型也可以用到編程模型上來。這可以說是對以 Transformer 模型架構為主的 LLM 圈的一次“地基式”的革命。

關鍵是,速度提升了 5-10 倍的同時,編碼的性能測試分數并沒有犧牲掉,反而取得了讓開發者眼前一亮的成績。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

這款神器名為 Mercury Coder,是由大洋彼岸硅谷的一家 AI 初創公司 Inception Labs 研發的。它不僅準確率與 GPT?4o Mini、Claude 3.5 Haiku 等自回歸模型相當。

而且在 Copilot Arena 測評中,Mercury 速度第一,質量名列第二,僅次于 GPT?4o 等模型。

多說一嘴,這么好的產品不再只是學術成果,已經成功實現商用了。

可以說非常的驚艷!

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

1.LLM底層范式變天:擴散機制進入語言領域

眾所周知,過去擴散模型專注圖像生成,現在終于有團隊成功將其移植到 LLM 世界(而且實現了商用)。

這就意味大語言模型取得了兩種突破:

  • 不再受限于“一次就生成一個token”的方式,而是能并行預測token(速度提升 5–10 倍,簡直是一種顛覆)
  • 允許模型“整體優化”“多token感知”,有助于提升上下文一致性與邏輯連貫性

而這兩點,可以說對于業界來說一直都是很大的挑戰。這尤其在代碼生成、數學推理、結構化填空等場景中尤其重要。

嘗鮮入口為大家找到了:

  • API 地址:platform.inceptionlabs.ai
  • 試玩地址:chat.inceptionlabs.ai

2.怎么做到的?技術細節公開了

至于具體的技術細節?由 Inception Labs 的多位核心研究者聯合署名發表的論文《Mercury:基于擴散機制的超高速大語言模型》也給出了解釋。

與以往的擴散方法不同,這種新框架有兩個特點——(1)在Transformer 架構內部運行;(2)能夠在多個位置同時進行語言建模。

下面就訓練、推理、優化方面簡單介紹一下,對于這塊細節不太“感冒”的朋友可以直接看下一部分。

在訓練方面,其實思路依舊是基于傳統擴散模型的思路(噪聲注入 + 重建),即:

使用一個前向擴散過程將原始數據擾亂(加噪),再通過反向去噪模型逐步恢復原始數據。

不過不同之處在于,該方法在所有位置的 denoising 是并行進行的,這意味著:

模型可以一次性預測多個 token,而不是像傳統 LLM 那樣一個一個地生成。

這種方法被稱為多時間步擴散語言建模,同時團隊成員還在在語言域上做了定制。

推理方面——

盡管訓練是并行進行的,推理過程仍然是序列化的,但不同于標準的自回歸 LLM:

  • 在推理時,采用一種被稱為“批次采樣(batchwise sampling)”的策略;
  • 每一步可以預測多個 token,然后用這些 token 更新序列;
  • 然后下一步繼續生成后續 token;
  • 這個過程實際上是一個自回歸的擴散采樣機制。

這種方式允許兼顧:上下文感知的序列生成能力和批量生成的速度優勢

簡言之:訓練時是并行的,推理時是快步自回歸的。

第三,在輸出token的質量方面,團隊還設計了一種從粗到細(Coarse-to-Fine)的采樣機制,以提升推理質量和效率:。

  • 在初始階段,快速生成多個 token 的初步版本;
  • 然后模型根據已有上下文和這些 token 的質量打分,挑出需要進一步“細化”的 token;
  • 在隨后的步驟中,模型只對這些 token 進行再生成或修復。

這樣做的好處就是,既避免了對所有 token 反復采樣的成本,同時保證了整體輸出的連貫性和準確性。

這種策略類似于圖像生成中的“refinement step”,事實證明,這種方法現在也可以應用到了 token 級別的語言生成上。

此外,工程優化方面也做了很多工作。比如對 Transformer 這個骨干架構,同樣在多個方面做了優化以支持擴散機制和高性能推理。

首先是,建模增強——

  • 引入了時間嵌入(time embeddings):將每個 token 的“擴散時間步”編碼輸入模型;
  • 修改了 attention mask 和位置編碼,使其支持同時多個 token 的解碼推理。

其次,是推理系統層優化。

  • 構建了專用的高吞吐推理引擎(用于部署);
  • 支持高效的 GPU 批處理、內存分頁和流式解碼;
  • 推理引擎支持OpenAI API 兼容接口,方便接入現有系統;
  • 可選動態參數,允許用戶在響應速度和生成質量之間權衡。

省流版,直接看下表。


環節



描述


訓練


多 token 并行去噪;非自回歸的語言建模訓練


推理


自回歸式擴散采樣;每步生成多個 token,快速推進


質量控制


coarse-to-fine 策略,提升效率與輸出一致性


架構優化


改進 Transformer 支持擴散;系統層優化支持高吞吐


3.快到飛起,專為編程場景設計

這款編碼神器,速度實在一絕,用快到“飛起”都不能形容,小編認為這是火箭的速度!

小編試著輸入了一個動畫模擬的 prompt,結果還沒眨眼,就出了效果了。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

目前 Mercury Coder,專門針對 編程場景做出了優化,目前分為兩個版本:Mini 和 Small。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

在測試中,兩款版本的速度優勢顯著:

在 NVIDIA H100 GPU 上的測試中(由第三方 Artificial Analysis 評估):

  • Mercury Coder Mini:1109 token/s,比所有開源模型表現更好,且速度快 8 倍以上
  • Mercury Coder Small:737 token/s,性能接近 Claude 3.5 Haiku 與 Gemini 2.0 Flash,但推理速度更快。

正如開頭所介紹的,這兩個模型:在速度上不僅比當前最強的“快模型”平均快 10 倍,同時還保持了與主流模型相當的輸出質量。

可以說,Mercury 模型顯著推動了“延遲-準確率”的帕累托邊界。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

比如,在 LLM 代碼助手競技場Copilot Arena 中:

  • Mercury Coder 是目前最快的模型;
  • 在質量排名中位居第二,說明性能并非以犧牲質量為代價。

4.多編程語言、多任務實測表現強勁

團隊還展示了 Mercury Coder 在多種編程語言和實際應用場景下的 benchmark 表現。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

團隊還測試了 6 種語言的代碼生成能力(C++、Java、JS、PHP、Bash、TS),Mercury 模型整體優于大多數開源模型,并在 Java、JavaScript 上有極強競爭力。

值得一提的是,測試模型在以下任務的補全能力時,也都取得第一的水平:

  • 單行缺失(FIM Single-Line):考察補全代碼中間缺失片段的能力
  • 隨機范圍輕缺失(Random-Span-Light)

說明 Mercury 已經在 代碼補全任務中為 SOTA 水準,優于所有參評模型,包含GPT-4o-mini、Codestral。

免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

至于,模型可擴展性方面,團隊表示:雖然目前只有 Mini 和 Small 兩個版本,但他們觀察到——Small 在所有基準上都優于 Mini,這說明:diffusion 架構可擴展性良好,未來值得進一步擴大模型規模。

5.網友驚到了:太快了,革命性壓力給到CI系統

這么快的編寫速度,著實驚人。以至于網友驚呼:壓力不再是編碼,而是測試端!

Hacker News 上底下的大佬們看到這樣的神器,紛紛表示:太快了,但測試和CI 跟不上這樣的速度!

AI 寫得再快,測試通不過還是白搭。Mercury 的快,不僅對「推理延遲」提出挑戰,對整個 CI 流程提出了革命性壓力。

網友 mike_hearn 表示:


LLM 代理越來越強了,但問題是:測試仍然慢得驚人

,這會讓速度優勢毫無意義。即使 AI 代碼寫得比人快 100 倍,但如果每次提交(PR)都要等一小時測試,就毫無用處。


免費!快Claude十倍!一秒1000個token!硅谷創業公司新推編程神器炸翻了!-AI.x社區圖片

他還指出:

  • 大多數團隊早就被 CI 速度卡住了;
  • Mercury 生成的代碼質量不錯,但更重要的問題是:「我們如何讓測試執行速度匹配生成速度?

關于這一點,網友 refulgentis 提出:

測試延遲不是只靠加機器解決。我的 Android Wear 構建最短也要 52 分鐘,有時超過 3 小時。

xemdetia也表達了類似的觀點——

CI 測試失敗很多時候不是代碼問題,而是:

  • GitHub rate limit;
  • 第三方 SAST 工具超時;
  • Artifactory 掛了;
  • 本地測過但 CI 環境 flaky。

這一點非常現實:LLM 編碼速度的“外部瓶頸”不在模型,而在落地流程:

  • Mercury 的每秒千 tokens 意味著它能每分鐘寫好幾個 PR;
  • 但現實世界的 CI/CD,仍然像堵車的十字路口。

當然,也有網友思考如何嘗試解決這個問題:是否可以用“云 + Spot 實例”優化 CI?

可以用云的 spot 實例來快速彈性擴展測試節點,CI 成本會降低不少。

但這種方案很快就引發了另一個問題:企業隱私安全問題。

很多公司因為 IP(知識產權)敏感,不敢把 CI 放到云上。

對于此,小編不得不說,Vibe Coding 氣候已成,下一步無疑就是 Vibe testing!

6.寫在最后:開胃菜已上,大餐還在后頭

下面提一些小編的思考。

首先,是不得不佩服這家 Inception?Labs 創業公司。

其一是他們團隊把Diffusion 模型進入 LLM 核心戰場:將擴散模型進入語言建模,且直接對標主流 Transformer 的 token-by-token 推理方式,這非常具有顛覆性。

其二,通過推理速度的突破和工程優化,能快速把基礎研究實現產業落地著實。在保質的前提下提升 10 倍速度,就意味著運行成本和響應延遲都大幅降低,非常契合“落地場景”(如 Copilot 這類編碼助手、實時對話系統)。

第二點,這種基于擴散模型的編程模型,只是開胃菜。雖然目前只是在編程垂類上做實驗,但若這種架構能擴展到通用語言模型領域,可能將挑戰 GPT 系列的主導地位。

第三點,通過評論區網友的反饋,可以預判:Vibe Testing 勢必將成為下一個火熱賽道。

對此,大家如何看待這樣一款超高速編程產品呢?

參考鏈接:

??https://arxiv.org/pdf/2506.17298??

??https://news.ycombinator.com/item?id=44489690??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 曰批视频在线观看 | av网站在线播放 | 成人在线免费 | 成人在线免费 | 美女黄网 | 国产精品www | 精品综合 | 日韩久久久久久久 | 自拍偷拍一区二区三区 | 亚洲毛片 | 亚洲成人蜜桃 | 五月槐花香 | 久久91精品国产一区二区 | 亚洲精品在线免费观看视频 | 久久久久无码国产精品一区 | 亚洲视频区 | 美女黄视频网站 | 日日噜噜夜夜爽爽狠狠 | 亚洲一区在线观看视频 | 日韩和的一区二在线 | av网站免费观看 | 亚洲精品68久久久一区 | 免费成人国产 | www.日韩| 成人一区二区三区视频 | 国产一区二区三区在线免费 | 成人精品一区二区三区 | 亚洲三区在线观看 | 国产精品一区二区三区在线 | 视频在线一区二区 | 免费中文字幕 | 国产亚洲精品精品国产亚洲综合 | 日韩欧美中文字幕在线观看 | 日韩一区二区免费视频 | 国产成人免费网站 | 操人网| 亚洲福利视频网 | 97人澡人人添人人爽欧美 | 亚洲综合在 | 精品福利视频一区二区三区 | 天天操人人干 |