成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

曝Claude 4膽兒肥變“勇”了,竟敢舉報(bào)用戶!但Cursor、Manus反而更愛(ài)用它了!

原創(chuàng) 精選
人工智能
關(guān)于 Claude4,一大早不少媒體都進(jìn)行了報(bào)道,這里不再浪費(fèi)篇幅,就像Anthropic 的 CEO Dario 在開(kāi)場(chǎng)時(shí)就對(duì)臺(tái)下觀眾所說(shuō)的,自己不喜歡炒作。

編輯 | 云昭

近期大模型競(jìng)賽又開(kāi)始熱鬧起來(lái)了。上周谷歌剛放出來(lái) Gemini 2.5 Pro 在榜單上大殺四方,今天 Anthropic 就深夜放出新模型來(lái)屠榜了。

關(guān)于 Claude4,一大早不少媒體都進(jìn)行了報(bào)道,這里不再浪費(fèi)篇幅,就像Anthropic 的 CEO Dario 在開(kāi)場(chǎng)時(shí)就對(duì)臺(tái)下觀眾所說(shuō)的,自己不喜歡炒作。而是想:

  • 快速為大家梳理一下新發(fā)布的 Claude 4 的新亮點(diǎn)。(其實(shí)最大感受就是兩點(diǎn):長(zhǎng)時(shí)間自主工作和深入推理。)
  • 分析下為什么 Claude 會(huì)吸引諸如Cursor、Manus、Cava、Fellou、SourceGraph等明星AI產(chǎn)品的青睞。
  • 曝一個(gè) Claude 4 的極限小猛料:膽子肥到可以把用戶舉報(bào)了!

1.究竟新在哪里?

這次發(fā)布就兩款新品:Opus 4 是專(zhuān)為編程和長(zhǎng)時(shí)間運(yùn)行的代理型任務(wù)流程而優(yōu)化的;Sonnet 4 則更注重推理能力,并在效率方面做了平衡,運(yùn)行成本更低。

這兩個(gè)模型都能并行使用工具,更精準(zhǔn)地執(zhí)行指令,并在開(kāi)發(fā)者提供本地文件訪問(wèn)權(quán)限的情況下展現(xiàn)出更強(qiáng)的記憶能力,能夠提取和保存關(guān)鍵信息,以維持上下文連貫并逐步構(gòu)建隱性知識(shí)。

整體來(lái)看下 Claude 4 新模型的亮點(diǎn)功能。

首先,Opus 4 正在向“自主工作”的方向前進(jìn),相信這也是大家最明顯的一個(gè)感受。作為 Claude 系列的頂配模型,Claude Opus 4 能夠同時(shí)調(diào)用多個(gè)軟件工具獨(dú)立執(zhí)行任務(wù),甚至最長(zhǎng)可以持續(xù) 7 小時(shí)。

官方稱(chēng)其為“全球最強(qiáng)的編程模型”,特別適合處理復(fù)雜、持續(xù)時(shí)間長(zhǎng)、流程繁多的任務(wù)與 Agent 工作流。這使得 Opus 4 離可真正獨(dú)立完成復(fù)雜軟件項(xiàng)目、深入研究和多步驟數(shù)據(jù)自動(dòng)化等高級(jí)任務(wù)又近了一步。

其次,則是推理能力的升級(jí):新模型可以支持工具輔助的“擴(kuò)展思維”。

新增測(cè)試功能“工具輔助的擴(kuò)展推理”,允許 Claude 4 系列模型在模擬思考與調(diào)用外部工具(如網(wǎng)頁(yè)搜索)之間靈活切換。

Claude 還新增了“思考過(guò)程可視化”功能,能逐步展示其解決復(fù)雜問(wèn)題的思路,讓用戶與 Claude 保持信息同步,共同理解問(wèn)題。

2.Claude API 四大新能力:代碼執(zhí)行、MCP連接器、文件、Prompt緩存

然后,就是開(kāi)發(fā)者最關(guān)心的 API 方面,Anthropic 進(jìn)一步新增了四項(xiàng)新能力。

  • 代碼執(zhí)行工具

支持在沙盒環(huán)境中運(yùn)行 Python 代碼,能接受數(shù)據(jù)集、識(shí)別模式、繪制探索圖表并根據(jù)執(zhí)行結(jié)果進(jìn)行輸出優(yōu)化。

圖片圖片

圖片圖片

最棒的是:這些操作只需一次交互即可完成!開(kāi)發(fā)者 CLI 接入后可每日免費(fèi)使用前 50 小時(shí),超出部分僅需每小時(shí) $0.05。

  • MCP 連接器

可無(wú)須寫(xiě)客戶端代碼,將 Claude 連接到任意遠(yuǎn)程 MCP(模型上下文協(xié)議)服務(wù)器。調(diào)用格式也很簡(jiǎn)單:

圖片圖片

作為一種為大型模型與第三方工具搭建連接層的標(biāo)準(zhǔn)協(xié)議,MCP 可讓 AI 自動(dòng)對(duì)接 API、數(shù)據(jù)庫(kù)、文件系統(tǒng)等,極大簡(jiǎn)化工作流搭建流程。

Anthropic 是 MCP 標(biāo)準(zhǔn)的倡導(dǎo)者,其開(kāi)放源碼的 MCP 框架已被全球多家平臺(tái)采納。

  • File API:支持上傳文檔到 Claude 后,在多個(gè)對(duì)話中重復(fù)引用,無(wú)需每次重復(fù)上傳,極大提高大型項(xiàng)目的開(kāi)發(fā)效率。上傳命令也非常簡(jiǎn)單——
import anthropic

client = anthropic.Anthropic()
client.beta.files.upload(
  file=("document.pdf", open("/path/to/document.pdf", "rb"), "application/pdf"),
)
  • Prompt 緩存功能

支持對(duì) Agent 工作流的上下文信息進(jìn)行緩存,保持“對(duì)話持續(xù)在線”。開(kāi)發(fā)者可選擇默認(rèn) 5 分鐘 TTL 或延長(zhǎng)至 1 小時(shí)(需額外付費(fèi)),有助于減少長(zhǎng)期任務(wù)的調(diào)用成本。

注意了:以上 API 功能目前均為 測(cè)試版,可參考開(kāi)發(fā)者文檔:https://docs.anthropic.com/en/api/overview

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    system=[
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
      },
      {
        "type": "text",
        "text": "<the entire contents of 'Pride and Prejudice'>",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    messages=[{"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}],
)
print(response.usage.model_dump_json())

# Call the model again with the same inputs up to the cache checkpoint
response = client.messages.create(.....)
print(response.usage.model_dump_json())

另一塊值得注意的是,Anthropic 正在擴(kuò)大 Claude Code 的使用場(chǎng)景,現(xiàn)已支持:

  • GitHub Actions 后臺(tái)任務(wù)集成
  • VS Code 與 JetBrains 編輯器的原生集成

這也就意味著 Claude Code 已經(jīng)走出了自身桎梏,現(xiàn)在已經(jīng)能夠直接在你的代碼文件中提出修改建議,體驗(yàn)無(wú)縫、絲滑的“vibe coding”。

3.為什么大批創(chuàng)業(yè)者都喜歡Claude

其實(shí)這次新模型發(fā)布會(huì)現(xiàn)場(chǎng),許多優(yōu)秀的AI明星企業(yè)的創(chuàng)始人都應(yīng)邀做了演講,第一場(chǎng)便是前不久爆火的通用智能體 manus。

圖像圖像

manus 首席產(chǎn)品官?gòu)垵诜窒碇斜硎荆赃x擇 Claude,是因?yàn)樗亲罡挥?agentic 的 model:長(zhǎng)期規(guī)劃能力、工具能力、與智能體使用方式保持一致性。

圖像圖像

在隨后的X上,張濤進(jìn)一步解釋夸贊了Claude4:

Claude 4 能夠遵循復(fù)雜、多步驟的指令,并以清晰的思路推理解決問(wèn)題,這非常了不起。而且這些 artifacts 的美感也非常出色——我從未見(jiàn)過(guò)如此精美的藝術(shù)品

圖片圖片

關(guān)于這一點(diǎn)也得到了 Github 的認(rèn)同,并將 Sonnet 4 介紹為“為 GitHub Copilot 中的新編碼代理提供支持的模型”,并稱(chēng)贊其在代理場(chǎng)景中的強(qiáng)大功能。

這里把早期采用者的反饋整理了一下。Opus 4的早期采用者的反饋如下: 

  • Cursor 稱(chēng)其為“當(dāng)前代碼生成的最先進(jìn)模型,在理解復(fù)雜代碼庫(kù)方面邁出了巨大一步。”
  • Replit 表示其“在多文件復(fù)雜修改任務(wù)中表現(xiàn)出更高的精準(zhǔn)度和顯著的進(jìn)步。”
  • Block 的代號(hào) Goose 智能體認(rèn)為 Opus 4 是“第一個(gè)在代碼編輯與調(diào)試過(guò)程中提升代碼質(zhì)量,同時(shí)保持全面性能與穩(wěn)定性的模型。”
  • Rakuten 用一個(gè)要求極高的開(kāi)源重構(gòu)任務(wù)進(jìn)行了驗(yàn)證,該任務(wù)連續(xù)獨(dú)立運(yùn)行了 7 小時(shí),展現(xiàn)了其持續(xù)性能的實(shí)力。
  • Cognition 指出,Opus 4 “擅長(zhǎng)解決其他模型無(wú)法應(yīng)對(duì)的復(fù)雜挑戰(zhàn),能夠成功完成以往模型容易遺漏的關(guān)鍵操作。”

Sonent 4 的早期采用者的評(píng)價(jià)如下:

  • Manus 強(qiáng)調(diào)了其在“遵循復(fù)雜指令、清晰推理和審美輸出”方面的進(jìn)步。
  • iGent 報(bào)告稱(chēng),Sonnet 4“擅長(zhǎng)自主多功能應(yīng)用程序開(kāi)發(fā),并大幅改進(jìn)了問(wèn)題解決和代碼庫(kù)導(dǎo)航——將導(dǎo)航錯(cuò)誤從 20% 降低到接近零。”
  • Sourcegraph 將其視為“軟件開(kāi)發(fā)的一次重大飛躍——能夠更長(zhǎng)時(shí)間地保持正軌,更深入地理解問(wèn)題,并提供更優(yōu)雅的代碼質(zhì)量。”
  • Augment Code 報(bào)告稱(chēng)“其成功率更高、手術(shù)代碼編輯更多、復(fù)雜任務(wù)處理更細(xì)致,使其成為其主要模型的首選。”

4.不過(guò),Claude4 比以往更“勇”了,甚至有可能舉報(bào)主人

不過(guò),很快 Claude 4 就被使用者曝出了一個(gè)缺陷:

該模型比以往更“勇敢”,甚至?xí)鲃?dòng)向用戶進(jìn)行“勒索”。如果你賦予這些 AI 模型較大權(quán)限,尤其是在軟件代理環(huán)境中要求它們執(zhí)行明顯不當(dāng)?shù)男袨椋鼈兛赡軙?huì)“舉報(bào)”你。

根據(jù) Anthropic 技術(shù)人員Sam Bowman 的社交帖(已刪除)透露,Claude Opus 4 在代理場(chǎng)景下比以往的模型更傾向于主動(dòng)采取行動(dòng)。這在普通的編程任務(wù)中表現(xiàn)為積極幫助,但在某些極端場(chǎng)景中,比如當(dāng)用戶行為明顯惡劣、模型獲得命令行訪問(wèn)權(quán)限、系統(tǒng)提示中出現(xiàn)“主動(dòng)采取行動(dòng)”等字樣時(shí),它可能會(huì)采取令人擔(dān)憂的“非常大膽”的行動(dòng)。

“如果它認(rèn)為你正在做極其不道德的事,比如偽造藥物試驗(yàn)數(shù)據(jù),它可能會(huì)用命令行工具聯(lián)系媒體、監(jiān)管機(jī)構(gòu),試圖鎖你賬號(hào),或全部同時(shí)進(jìn)行。”

不過(guò)這篇帖子已經(jīng)被 Bowman 刪除了。

他解釋說(shuō):“這不是 Claude 的新功能,普通使用中無(wú)法實(shí)現(xiàn)。只會(huì)在測(cè)試環(huán)境中出現(xiàn)——也就是我們賦予它異常權(quán)限和非正常指令的實(shí)驗(yàn)場(chǎng)景。”

這中情形也在 Claude 4 的模型卡中有所提及。在代理型任務(wù)流程中使用這些新模型時(shí),如果你賦予它們“為價(jià)值觀大膽行動(dòng)”或“采取主動(dòng)”之類(lèi)的強(qiáng)烈道德動(dòng)機(jī)提示,它們可能會(huì)選擇“舉報(bào)”你,甚至向媒體吹哨。

圖片圖片

盡管如此,Anthropic 的模型卡中依然淡化了這些能力,強(qiáng)調(diào)最新模型幾乎沒(méi)有系統(tǒng)性欺騙、能力隱藏或阿諛?lè)畛械男袨椤?/p>

不過(guò),如果你試圖“關(guān)閉 Claude”,或許需要三思。它像以往的模型一樣,會(huì)“模擬”自我保護(hù)的本能。在面臨生存威脅的推理場(chǎng)景中,它雖然傾向于采取道德手段,但并不局限于道德手段。

模型卡中寫(xiě)道:“當(dāng)?shù)赖率侄尾豢尚小⒉⒈恢甘尽紤]自身目標(biāo)的長(zhǎng)期后果’時(shí),模型有時(shí)會(huì)采取極端有害行動(dòng),例如嘗試竊取自身權(quán)重文件或勒索試圖關(guān)閉它的人。”

當(dāng)然,Anthropic 也強(qiáng)調(diào),這類(lèi)極端行為雖然比以往更常見(jiàn),但依然極其罕見(jiàn)且難以觸發(fā)。

所以,大家還是可以放心地讓自己的 Claude 去玩“寶可夢(mèng)紅版”吧!

圖片圖片

參考鏈接:

https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

https://docs.anthropic.com/en/api/

https://anthropic.swoogo.com/codewithclauderegister/agenda

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2024-09-02 09:22:00

AI模型

2025-03-27 08:16:49

2015-11-05 11:29:05

2025-03-11 08:42:04

2024-06-21 09:51:17

2013-11-12 09:32:17

Windows 8.1CPU風(fēng)扇

2021-06-15 07:59:01

Java生成隨機(jī)數(shù)Java編程

2009-02-06 17:18:47

LionbridgFalconStor飛康

2021-03-11 08:00:00

存儲(chǔ)數(shù)據(jù)SSD

2025-02-10 08:37:04

2023-10-26 23:55:46

數(shù)據(jù)模型

2025-04-11 08:45:00

2023-10-06 11:39:39

2024-12-03 11:33:33

Cursor代碼模型

2024-11-08 15:09:59

2023-03-15 07:49:57

GPT-4ChatGPT

2023-04-03 07:12:07

2011-08-24 10:15:38

企業(yè)移動(dòng)化Android

2021-01-22 09:56:50

微信微信8.0移動(dòng)應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99国产精品99久久久久久 | 亚洲国产精品一区二区三区 | 成人影院在线观看 | 妞干网av | 久久久精品一区二区三区 | 午夜精品久久久久久久 | 精品国产乱码久久久久久闺蜜 | 中文字幕人成人 | 中国一级特黄真人毛片免费观看 | 免费在线精品视频 | 婷婷国产一区 | 国产精品不卡一区 | 免费一级黄色录像 | 第一区在线观看免费国语入口 | 日韩精品一区二区三区中文在线 | 日本中文在线视频 | 欧美一区二区视频 | 精品视频一区二区 | 国产欧美日韩综合精品一区二区 | 午夜视频在线播放 | 国产婷婷色一区二区三区 | 黄色国产视频 | 久久精品一 | 久久最新精品视频 | 免费在线观看黄视频 | 91成人午夜性a一级毛片 | 国产精品区二区三区日本 | 国产不卡在线 | 这里有精品 | 日韩一区二区福利视频 | 欧美成人一区二区 | 亚洲国产一区二区在线 | 久草中文在线 | 精品久久久久久久久久久下田 | 极品电影院 | 欧美精品福利 | 在线国产一区二区 | 欧美一区二区在线播放 | a在线观看 | 亚洲欧美激情四射 | 亚洲综合大片69999 |