成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI編程新王Claude 4,深夜震撼登基!連續編碼7小時,開發者驚掉下巴

人工智能
Anthropic,今晚扔出了真正的核武器——全球最強編程模型Claude 4!能連續編碼7小時不斷的Opus 4,再一次讓大模型能力實現了重大飛躍。網友實測后驚呼:不可能,從未見過一個AI做到這樣的事!

今晚的聚光燈,屬于Anthropic。

就在剛剛,全網翹首盼望的Claude 4,重磅登場!

CEO Dario Amodei親自上陣,攜Claude Opus 4和 Claude Sonnet 4亮相,再次將編碼、高級推理和AI智能體,推向全新的標準。

圖片圖片

其中,Claude Opus 4是全球頂尖的編碼模型,擅長復雜、長時間運行的任務,在AI智能體工作流方面性能極為出色。

而Claude Sonnet 4,則是對Sonnet 3.7 的重大升級,編碼和推理能力都更出色,還能更精準地響應指令。

圖片圖片

同時,Claude把這段時間積攢的一系列產品,通通一口氣發布了——

  • Claude Opus 4和Sonnet 4混合模型的兩種模式:幾乎即時的響應和用于更深度推理的擴展思考。
  • 擴展思考與工具使用(測試版):兩款模型均可在擴展思考過程中使用工具(例如網絡搜索),使Claude能在推理與工具使用間靈活切換,從而優化響應質量。
  • 新的模型能力:兩款模型均可并行使用工具,更精確地遵循指令,并且(當開發者授予其訪問本地文件的權限時)展現出顯著增強的記憶能力,能提取、保存關鍵信息,以保持連續性,并隨時間積累隱性知識。
  • Claude Code:可通過GitHub Actions支持后臺任務,并與VS Code和JetBrains進行了原生集成,可直接在文件中顯示編輯內容,實現無縫結對編程。
  • 新的API能力:Anthropic API新增四項新功能,讓開發者能夠構建更強大的AI智能體——代碼執行工具、MCP連接器、文件API,以及長達一小時的提示詞緩存能力。

圖片圖片

所以,什么人能用上這次的新模型?

目前,訂閱了Pro、Max、Team和Enterprise版的Claude用戶,可以立即體驗到這兩款模型及擴展思考功能。其中,Sonnet 4還將向免費用戶開放。

開發者則可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI調用。

而Claude 4的定價,也與此前保持一致:

  • Opus 4每百萬Token為15美元(輸入)/75美元(輸出)
  • Sonnet 4每百萬Token為3美元(輸入)/15美元(輸出)

Claude 4:AI編程新王登基

Claude Opus 4號稱是Anthropic迄今為止最強大的模型,也是全球最頂尖的編碼模型。

在SWE-bench和Terminal-bench測試中,分別以72.5%和43.2%的得分全面領先,碾壓OpenAI剛剛發布的編程智能體Codex-1和最強推理模型o3。

即使在需要高度專注并執行數千步驟的長時間運行任務中,它都能展現出持續穩定的性能,連續工作數小時。

圖片圖片

圖片圖片

可以說,Opus 4的推出極大擴展了AI智能體的能力邊界。眾多前沿的AI智能體產品,都將獲得強大支持。

· Cursor:Opus 4的編碼能力已達業界頂尖水平,在理解復雜代碼庫方面,還取得了飛躍性進展。 

· Replit:在處理跨多個文件的復雜變更時,Opus 4的精度大大提升,表現出顯著進步。 

· Block:在「goose」智能體中,Opus 4是首款能在編輯和調試過程中提升代碼質量,同時還能保持完整性能和可靠性的模型。 

· Rakuten:Opus 4通過了一項要求嚴苛的開源代碼重構任務,這項任務獨立運行長達7小時,期間它始終保持了穩定的性能。 

· Cognition:Opus 4擅長解決其他模型難以應對的復雜挑戰,能夠成功處理先前模型未能完成的關鍵操作。

而在Sonnet 3.7已經算業界領先的能力基礎上,Claude Sonnet 4又再度實現了顯著提升。

它在編碼上極其出色,在SWE-bench測試中,直接取得72.7%的頂尖成績!

而且,Sonnet 4在內部及外部應用場景中,均實現了性能與效率的良好平衡,可操控性也大大增加了。

盡管在多數領域,Sonnet 4的表現并不及Opus 4,但它在能力與實用性之間卻達到了最佳平衡。

圖片圖片

Anthropic:引爆推理革命

這就意味著,2025年的推理模型大戰,Anthropic正式下場!

2025年,AI行業的一個明顯趨勢,就是轉向推理模型。這類AI在做出反應之前會系統地解決問題,模擬類人的思維過程,而非簡單地根據訓練數據進行模式匹配。

去年12月,OpenAI拋出o系列,正式拉開大戰序幕;谷歌的Gemini 2.5 Pro,也緊隨其后推出實驗性的“深度思考”功能;然后,就是DeepSeek-R1憑卓越性能和超高性價比,強勢占領市場份額。

顯然,現在人們使用AI的方式已經發生了根本性變革。

Poe的《2025年春季AI模型使用趨勢報告》顯示,推理模型的使用量在短短四個月內增長了五倍,占所有AI交互的比例從2%增長到10%。用戶也越來越多地將AI視為解決復雜問題的思維伙伴,而非簡單的問答系統。

圖片圖片

隨著新模型帶來的用戶興趣的提升,推理類信息的比例在2025年初大幅上升

而這次,Anthropic再次給推理大戰貢獻了顛覆性的形式——將工具使用直接融入推理過程。

比起以前先收集信息再進行分析的系統,這種同步研究與推理的方法,顯然更貼近人類認知。

Claude Opus 4和Claude Sonnet 4這種在推理過程中暫停、查找數據并融入新發現的能力,就創造了更自然、更有效的體驗。

模型改進:不偷懶,記性好

此外,Anthropic還顯著減少了模型在完成任務時試圖走捷徑或利用漏洞的行為。

在某類AI智能體任務上,模型特別容易走捷徑,但這次的兩款新模型發生此類行為的概率,比Sonnet 3.7要低65%。

在記憶能力上,Claude Opus 4也顯著優于所有先前的模型。

當開發者構建的應用授予Claude本地文件訪問權限時,Opus 4便能熟練地創建和維護用于存儲關鍵信息的「記憶文件」,從而提高自己在AI智能體任務中的長期任務感知能力、連貫性和整體性能。

一個突出表現就是,Opus 4在玩《寶可夢》時,能創建并使用「導航指南」!

而團隊為Claude 4模型引入的思考摘要功能,會利用一個較小的模型來精簡冗長的思考過程。

不過需要注意,這項功能僅在約5%的情況下才需要啟用——因為大多數思考過程本身就足夠簡短,能夠完整呈現了。

圖片圖片

網友實測:簡直瘋狂

手快的網友們,已經開始實測了。

比如用Claude 4制作一個CRM儀表板,只需30秒,速度直接讓人瞳孔地震。

圖片圖片

連續7小時編程,意味著AI大模型能力發展史上的一次分水嶺。

圖片圖片

僅用一個提示,僅僅一次,Claude 4 Opus就能完成一個可運行的瀏覽器智能體,包括API和前端。

大佬驚呼:不可能,我從未見過這樣的事!

圖片圖片

圖片圖片

另一位獲得提前內測資格的用戶,體感是:Claude 4寫作和編輯能力一流,編碼能力和Gemini 2.5一樣好。

比如,它一次性就構建了一個俄羅斯方塊游戲。

圖片圖片

沃頓商學院教授Ethan Mollick則用Claude 4 Opus制作了一段令人印象極深的視頻,提示詞為「用p5.js創建小說《皮拉內西》的三維世界」。

圖片圖片

圖片圖片

Claude Code

Claude Code,也正式發布了。

由此,Claude的強大功能就融入更多開發工作流程中——無論是在終端、用戶所偏好的IDE中,還是通過Claude Code SDK在后臺運行。

針對VS Code和JetBrains的全新測試版擴展程序,可將Claude Code直接集成到我們的IDE中。

甚至,Claude還會以內聯方式,直接在文件中顯示出編輯建議,這樣就能在我們熟悉的編輯器界面中簡化審查和跟蹤流程。在IDE終端中運行Claude Code,即可安裝。

并且,團隊還發布了一款可擴展的Claude Code SDK,因此開發者可以使用與Claude Code相同的核心AI智能體來構建自己的AI智能體和應用程序。

下面就是一個SDK功能的示例:Claude Code on GitHub,目前仍處于測試階段。

可以看到,在PR(拉取請求)中標記Claude Code,它就能響應審查者反饋、修復CI錯誤或修改代碼。

在Claude Code內運行/install-github-app,就可直接安裝了。

圖片圖片

總的來說,Claude 4是向虛擬協作者邁出的一大步——能夠保持完整的上下文理解,在較長項目中持續專注,從而推動變革性的影響。

此外,兩款模型也都經過了廣泛的測試和評估,最大限度地降低了風險并提高安全性,包括實施了更高級別的AI安全措施(如ASL-3)。

參考資料:https://www.anthropic.com/news/claude-4

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-26 02:15:00

2025-05-23 09:01:00

2024-09-02 14:20:00

模型測試

2021-09-04 07:56:44

單例模式寫法

2025-05-26 06:26:33

2024-12-04 13:30:00

2025-04-17 09:31:41

2024-03-27 13:32:00

AI數據

2025-05-23 08:34:30

2012-11-09 10:54:13

阿里云開發者開發

2020-02-03 14:40:59

上線新冠肺炎查詢工具

2025-06-05 08:58:00

2024-05-24 13:32:59

2013-01-11 10:47:31

福特開發者車載系統

2019-08-16 10:55:37

開發者技能AI

2024-03-05 11:17:40

AI模型

2025-03-31 01:00:00

AI編碼趨勢

2013-07-09 14:53:06

編程

2018-06-03 08:00:24

AI開發深度學習語言

2024-06-21 09:58:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区久久久 | 国产激情视频网 | 免费一级欧美在线观看视频 | 超碰97人人人人人蜜桃 | 国产精品久久久久久婷婷天堂 | 精品免费 | 久久久蜜桃 | 亚洲精品视频在线看 | 四虎成人精品永久免费av九九 | 亚洲情综合五月天 | www.99热| 日韩国产精品一区二区三区 | 操人网| 亚洲一区av | 在线观看国产h | 久久91 | 丝袜美腿av | 毛片com | 日韩一区二区在线视频 | 欧美日韩激情 | 欧美日韩一区二区在线观看 | 国产一级特黄视频 | 粉嫩av| 97精品超碰一区二区三区 | 色婷婷久久综合 | 久久久久精 | 中文字幕日韩欧美一区二区三区 | 福利在线看 | 午夜影院普通用户体验区 | 亚洲人成在线播放 | 国产精品国产精品国产专区不蜜 | 亚洲精品欧美 | 日韩三级在线观看 | 狠狠久| 日韩亚洲一区二区 | 亚洲精品乱码久久久久久久久久 | 成人毛片网站 | 色综合色综合 | 久久精品国产精品青草 | 玖玖操 | 好姑娘影视在线观看高清 |