曝Claude 4膽兒肥變“勇”了,竟敢舉報(bào)用戶!但Cursor、Manus反而更愛(ài)用它了! 原創(chuàng)
編輯 | 云昭
近期大模型競(jìng)賽又開(kāi)始熱鬧起來(lái)了。上周谷歌剛放出來(lái) Gemini 2.5 Pro 在榜單上大殺四方,今天 Anthropic 就深夜放出新模型來(lái)屠榜了。
關(guān)于 Claude4,一大早不少媒體都進(jìn)行了報(bào)道,這里不再浪費(fèi)篇幅,就像Anthropic 的 CEO Dario 在開(kāi)場(chǎng)時(shí)就對(duì)臺(tái)下觀眾所說(shuō)的,自己不喜歡炒作。而是想:
- 快速為大家梳理一下新發(fā)布的 Claude 4 的新亮點(diǎn)。(其實(shí)最大感受就是兩點(diǎn):長(zhǎng)時(shí)間自主工作和深入推理。)
- 分析下為什么 Claude 會(huì)吸引諸如Cursor、Manus、Cava、Fellou、SourceGraph等明星AI產(chǎn)品的青睞。
- 曝一個(gè) Claude 4 的極限小猛料:膽子肥到可以把用戶舉報(bào)了!
1.究竟新在哪里?
這次發(fā)布就兩款新品:Opus 4 是專(zhuān)為編程和長(zhǎng)時(shí)間運(yùn)行的代理型任務(wù)流程而優(yōu)化的;Sonnet 4 則更注重推理能力,并在效率方面做了平衡,運(yùn)行成本更低。
這兩個(gè)模型都能并行使用工具,更精準(zhǔn)地執(zhí)行指令,并在開(kāi)發(fā)者提供本地文件訪問(wèn)權(quán)限的情況下展現(xiàn)出更強(qiáng)的記憶能力,能夠提取和保存關(guān)鍵信息,以維持上下文連貫并逐步構(gòu)建隱性知識(shí)。
整體來(lái)看下 Claude 4 新模型的亮點(diǎn)功能。
首先,Opus 4 正在向“自主工作”的方向前進(jìn),相信這也是大家最明顯的一個(gè)感受。作為 Claude 系列的頂配模型,Claude Opus 4 能夠同時(shí)調(diào)用多個(gè)軟件工具獨(dú)立執(zhí)行任務(wù),甚至最長(zhǎng)可以持續(xù) 7 小時(shí)。
官方稱(chēng)其為“全球最強(qiáng)的編程模型”,特別適合處理復(fù)雜、持續(xù)時(shí)間長(zhǎng)、流程繁多的任務(wù)與 Agent 工作流。這使得 Opus 4 離可真正獨(dú)立完成復(fù)雜軟件項(xiàng)目、深入研究和多步驟數(shù)據(jù)自動(dòng)化等高級(jí)任務(wù)又近了一步。
其次,則是推理能力的升級(jí):新模型可以支持工具輔助的“擴(kuò)展思維”。
新增測(cè)試功能“工具輔助的擴(kuò)展推理”,允許 Claude 4 系列模型在模擬思考與調(diào)用外部工具(如網(wǎng)頁(yè)搜索)之間靈活切換。
Claude 還新增了“思考過(guò)程可視化”功能,能逐步展示其解決復(fù)雜問(wèn)題的思路,讓用戶與 Claude 保持信息同步,共同理解問(wèn)題。
2.Claude API 四大新能力:代碼執(zhí)行、MCP連接器、文件、Prompt緩存
然后,就是開(kāi)發(fā)者最關(guān)心的 API 方面,Anthropic 進(jìn)一步新增了四項(xiàng)新能力。
- 代碼執(zhí)行工具
支持在沙盒環(huán)境中運(yùn)行 Python 代碼,能接受數(shù)據(jù)集、識(shí)別模式、繪制探索圖表并根據(jù)執(zhí)行結(jié)果進(jìn)行輸出優(yōu)化。
圖片
圖片
最棒的是:這些操作只需一次交互即可完成!開(kāi)發(fā)者 CLI 接入后可每日免費(fèi)使用前 50 小時(shí),超出部分僅需每小時(shí) $0.05。
- MCP 連接器
可無(wú)須寫(xiě)客戶端代碼,將 Claude 連接到任意遠(yuǎn)程 MCP(模型上下文協(xié)議)服務(wù)器。調(diào)用格式也很簡(jiǎn)單:
圖片
作為一種為大型模型與第三方工具搭建連接層的標(biāo)準(zhǔn)協(xié)議,MCP 可讓 AI 自動(dòng)對(duì)接 API、數(shù)據(jù)庫(kù)、文件系統(tǒng)等,極大簡(jiǎn)化工作流搭建流程。
Anthropic 是 MCP 標(biāo)準(zhǔn)的倡導(dǎo)者,其開(kāi)放源碼的 MCP 框架已被全球多家平臺(tái)采納。
- File API:支持上傳文檔到 Claude 后,在多個(gè)對(duì)話中重復(fù)引用,無(wú)需每次重復(fù)上傳,極大提高大型項(xiàng)目的開(kāi)發(fā)效率。上傳命令也非常簡(jiǎn)單——
import anthropic
client = anthropic.Anthropic()
client.beta.files.upload(
file=("document.pdf", open("/path/to/document.pdf", "rb"), "application/pdf"),
)
- Prompt 緩存功能
支持對(duì) Agent 工作流的上下文信息進(jìn)行緩存,保持“對(duì)話持續(xù)在線”。開(kāi)發(fā)者可選擇默認(rèn) 5 分鐘 TTL 或延長(zhǎng)至 1 小時(shí)(需額外付費(fèi)),有助于減少長(zhǎng)期任務(wù)的調(diào)用成本。
注意了:以上 API 功能目前均為 測(cè)試版,可參考開(kāi)發(fā)者文檔:??https://docs.anthropic.com/en/api/overview??
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-20250514",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
},
{
"type": "text",
"text": "<the entire contents of 'Pride and Prejudice'>",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}],
)
print(response.usage.model_dump_json())
# Call the model again with the same inputs up to the cache checkpoint
response = client.messages.create(.....)
print(response.usage.model_dump_json())
另一塊值得注意的是,Anthropic 正在擴(kuò)大 Claude Code 的使用場(chǎng)景,現(xiàn)已支持:
- GitHub Actions 后臺(tái)任務(wù)集成
- VS Code 與 JetBrains 編輯器的原生集成
這也就意味著 Claude Code 已經(jīng)走出了自身桎梏,現(xiàn)在已經(jīng)能夠直接在你的代碼文件中提出修改建議,體驗(yàn)無(wú)縫、絲滑的“vibe coding”。
3.為什么大批創(chuàng)業(yè)者都喜歡Claude
其實(shí)這次新模型發(fā)布會(huì)現(xiàn)場(chǎng),許多優(yōu)秀的AI明星企業(yè)的創(chuàng)始人都應(yīng)邀做了演講,第一場(chǎng)便是前不久爆火的通用智能體 manus。
圖像
manus 首席產(chǎn)品官?gòu)垵诜窒碇斜硎荆赃x擇 Claude,是因?yàn)樗亲罡挥?agentic 的 model:長(zhǎng)期規(guī)劃能力、工具能力、與智能體使用方式保持一致性。
圖像
在隨后的X上,張濤進(jìn)一步解釋夸贊了Claude4:
Claude 4 能夠遵循復(fù)雜、多步驟的指令,并以清晰的思路推理解決問(wèn)題,這非常了不起。而且這些 artifacts 的美感也非常出色——我從未見(jiàn)過(guò)如此精美的藝術(shù)品
圖片
關(guān)于這一點(diǎn)也得到了 Github 的認(rèn)同,并將 Sonnet 4 介紹為“為 GitHub Copilot 中的新編碼代理提供支持的模型”,并稱(chēng)贊其在代理場(chǎng)景中的強(qiáng)大功能。
這里把早期采用者的反饋整理了一下。Opus 4的早期采用者的反饋如下:
- Cursor 稱(chēng)其為“當(dāng)前代碼生成的最先進(jìn)模型,在理解復(fù)雜代碼庫(kù)方面邁出了巨大一步。”
- Replit 表示其“在多文件復(fù)雜修改任務(wù)中表現(xiàn)出更高的精準(zhǔn)度和顯著的進(jìn)步。”
- Block 的代號(hào) Goose 智能體認(rèn)為 Opus 4 是“第一個(gè)在代碼編輯與調(diào)試過(guò)程中提升代碼質(zhì)量,同時(shí)保持全面性能與穩(wěn)定性的模型。”
- Rakuten 用一個(gè)要求極高的開(kāi)源重構(gòu)任務(wù)進(jìn)行了驗(yàn)證,該任務(wù)連續(xù)獨(dú)立運(yùn)行了 7 小時(shí),展現(xiàn)了其持續(xù)性能的實(shí)力。
- Cognition 指出,Opus 4 “擅長(zhǎng)解決其他模型無(wú)法應(yīng)對(duì)的復(fù)雜挑戰(zhàn),能夠成功完成以往模型容易遺漏的關(guān)鍵操作。”
Sonent 4 的早期采用者的評(píng)價(jià)如下:
- Manus 強(qiáng)調(diào)了其在“遵循復(fù)雜指令、清晰推理和審美輸出”方面的進(jìn)步。
- iGent 報(bào)告稱(chēng),Sonnet 4“擅長(zhǎng)自主多功能應(yīng)用程序開(kāi)發(fā),并大幅改進(jìn)了問(wèn)題解決和代碼庫(kù)導(dǎo)航——將導(dǎo)航錯(cuò)誤從 20% 降低到接近零。”
- Sourcegraph 將其視為“軟件開(kāi)發(fā)的一次重大飛躍——能夠更長(zhǎng)時(shí)間地保持正軌,更深入地理解問(wèn)題,并提供更優(yōu)雅的代碼質(zhì)量。”
- Augment Code 報(bào)告稱(chēng)“其成功率更高、手術(shù)代碼編輯更多、復(fù)雜任務(wù)處理更細(xì)致,使其成為其主要模型的首選。”
4.不過(guò),Claude4 比以往更“勇”了甚至有可能舉報(bào)主人
不過(guò),很快 Claude 4 就被使用者曝出了一個(gè)缺陷:
該模型比以往更“勇敢”,甚至?xí)鲃?dòng)向用戶進(jìn)行“勒索”。如果你賦予這些 AI 模型較大權(quán)限,尤其是在軟件代理環(huán)境中要求它們執(zhí)行明顯不當(dāng)?shù)男袨椋鼈兛赡軙?huì)“舉報(bào)”你。
根據(jù) Anthropic 技術(shù)人員Sam Bowman 的社交帖(已刪除)透露,Claude Opus 4 在代理場(chǎng)景下比以往的模型更傾向于主動(dòng)采取行動(dòng)。這在普通的編程任務(wù)中表現(xiàn)為積極幫助,但在某些極端場(chǎng)景中,比如當(dāng)用戶行為明顯惡劣、模型獲得命令行訪問(wèn)權(quán)限、系統(tǒng)提示中出現(xiàn)“主動(dòng)采取行動(dòng)”等字樣時(shí),它可能會(huì)采取令人擔(dān)憂的“非常大膽”的行動(dòng)。
“如果它認(rèn)為你正在做極其不道德的事,比如偽造藥物試驗(yàn)數(shù)據(jù),它可能會(huì)用命令行工具聯(lián)系媒體、監(jiān)管機(jī)構(gòu),試圖鎖你賬號(hào),或全部同時(shí)進(jìn)行。”
不過(guò)這篇帖子已經(jīng)被 Bowman 刪除了。
他解釋說(shuō):“這不是 Claude 的新功能,普通使用中無(wú)法實(shí)現(xiàn)。只會(huì)在測(cè)試環(huán)境中出現(xiàn)——也就是我們賦予它異常權(quán)限和非正常指令的實(shí)驗(yàn)場(chǎng)景。”
這中情形也在 Claude 4 的模型卡中有所提及。在代理型任務(wù)流程中使用這些新模型時(shí),如果你賦予它們“為價(jià)值觀大膽行動(dòng)”或“采取主動(dòng)”之類(lèi)的強(qiáng)烈道德動(dòng)機(jī)提示,它們可能會(huì)選擇“舉報(bào)”你,甚至向媒體吹哨。
圖片
盡管如此,Anthropic 的模型卡中依然淡化了這些能力,強(qiáng)調(diào)最新模型幾乎沒(méi)有系統(tǒng)性欺騙、能力隱藏或阿諛?lè)畛械男袨椤?/p>
不過(guò),如果你試圖“關(guān)閉 Claude”,或許需要三思。它像以往的模型一樣,會(huì)“模擬”自我保護(hù)的本能。在面臨生存威脅的推理場(chǎng)景中,它雖然傾向于采取道德手段,但并不局限于道德手段。
模型卡中寫(xiě)道:“當(dāng)?shù)赖率侄尾豢尚小⒉⒈恢甘尽紤]自身目標(biāo)的長(zhǎng)期后果’時(shí),模型有時(shí)會(huì)采取極端有害行動(dòng),例如嘗試竊取自身權(quán)重文件或勒索試圖關(guān)閉它的人。”
當(dāng)然,Anthropic 也強(qiáng)調(diào),這類(lèi)極端行為雖然比以往更常見(jiàn),但依然極其罕見(jiàn)且難以觸發(fā)。
所以,大家還是可以放心地讓自己的 Claude 去玩“寶可夢(mèng)紅版”吧!
圖片
參考鏈接:
??https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf??
??https://docs.anthropic.com/en/api/??
??https://anthropic.swoogo.com/codewithclauderegister/agenda??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭
