力壓GPT-4o！新王Claude 3.5 Sonnet來(lái)了，直接免費(fèi)可用

2024-06-21 09:58:38

Claude 3.5 Sonnet 是 Anthropic 即將推出的 Claude 3.5 系列的首個(gè)版本。該模型提高了整個(gè)領(lǐng)域的智能水平，在絕大多數(shù)基準(zhǔn)評(píng)估中都超越了競(jìng)品大模型和自家前代最強(qiáng) Claude 3 Opus。與此同時(shí)，運(yùn)行速度、成本與自家前代 Claude 3 Sonnet 相當(dāng)。

如今，大模型領(lǐng)域更卷了！

前腳 OpenAI 發(fā)布 GPT4o，硬控全場(chǎng)，后腳就被最大的競(jìng)爭(zhēng)對(duì)手 Anthropic 超越了。

剛剛，Anthropic 發(fā)布了全新大模型 Claude 3.5 Sonnet，號(hào)稱是迄今為止最智能的模型。

據(jù)介紹，Claude 3.5 Sonnet 是 Anthropic 即將推出的 Claude 3.5 系列的首個(gè)版本。該模型提高了整個(gè)領(lǐng)域的智能水平，在絕大多數(shù)基準(zhǔn)評(píng)估中都超越了競(jìng)品大模型和自家前代最強(qiáng) Claude 3 Opus。與此同時(shí)，運(yùn)行速度、成本與自家前代 Claude 3 Sonnet 相當(dāng)。

地址：https://claude.ai/

目前，Claude 3.5 Sonnet 已經(jīng)在 Claude.ai 和 Claude iOS 應(yīng)用程序上免費(fèi)提供，而 Claude Pro 和 Team 計(jì)劃訂戶能夠以更高的速率訪問(wèn)它。

此外，Claude 3.5 Sonnet 已經(jīng)可以直接通過(guò) Anthropic API、亞馬遜云科技 Bedrock 等渠道使用。每百萬(wàn)個(gè)輸入 token 的價(jià)格為 3 美元，每百萬(wàn)個(gè)輸出 token 的價(jià)格為 15 美元，上下文窗口為 200k token。

Claude、GPT、Gemini三個(gè)模型迭代發(fā)布時(shí)間線。

Anthropic 稱其目標(biāo)是每隔幾個(gè)月大幅度改進(jìn)性能、速度和成本之間的權(quán)衡曲線。今年晚些時(shí)候?qū)l(fā)布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了開(kāi)發(fā)下一代大模型之外，Anthropic 正在開(kāi)發(fā)新的模式和功能，以支持更多企業(yè)用例，包括與企業(yè)應(yīng)用程序的集成。團(tuán)隊(duì)還在探索諸如 Memory 之類的功能，使得模型能夠記住用戶的偏好和指定的交互歷史，從而實(shí)現(xiàn)更加個(gè)性化和高效的體驗(yàn)。

比 GPT-4o 更智能

比 Claude 3 Opus 快兩倍

Claude 3.5 Sonnet 為研究生水平推理 (GPQA)、本科生水平知識(shí) (MMLU) 和編碼能力 (HumanEval) 設(shè)定了新的行業(yè)基準(zhǔn)。它在理解細(xì)微差別、幽默和復(fù)雜指令方面表現(xiàn)出顯著的進(jìn)步，并且擅長(zhǎng)以自然、親切的語(yǔ)氣撰寫(xiě)高質(zhì)量的內(nèi)容。

Claude 3.5 Sonnet 的運(yùn)行速度是 Claude 3 Opus 的兩倍。這種性能的提升加上實(shí)惠的價(jià)格，使 Claude 3.5 Sonnet 成為復(fù)雜任務(wù)的理想選擇。

在內(nèi)部代理編碼評(píng)估中，Claude 3.5 Sonnet 解決了 64% 的問(wèn)題，優(yōu)于 Claude 3 Opus（解決了 38%）。Anthropic 評(píng)估測(cè)試了 Claude 3.5 Sonnet 根據(jù)自然語(yǔ)言描述的需求，修復(fù)錯(cuò)誤或增加功能到開(kāi)源代碼庫(kù)中的能力。

在獲得指導(dǎo)和相關(guān)工具后，Claude 3.5 Sonnet 可以獨(dú)立編寫(xiě)、編輯和執(zhí)行代碼，并具有復(fù)雜的推理和故障排除功能。Claude 3.5 Sonnet 可以輕松處理代碼轉(zhuǎn)換，這對(duì)于更新舊版應(yīng)用程序和遷移代碼庫(kù)特別有效。

下表為 Claude 3.5 Sonnet 與其他模型的比較，評(píng)估基準(zhǔn)包括推理、閱讀理解、數(shù)學(xué)、科學(xué)和編碼。在所有這些基準(zhǔn)測(cè)試中，Claude 3.5 Sonnet 的表現(xiàn)均優(yōu)于之前的前沿模型 Claude 3 Opus。

我們也可以看到表中 Claude3.5 與 GPT-4o 的對(duì)比數(shù)據(jù)，除了數(shù)學(xué)方面，得分都比 GPT-4o 高或者逼近。

迄今為止最強(qiáng)視覺(jué)模型

Anthropic 表示，Claude 3.5 Sonnet 是其最強(qiáng)的視覺(jué)模型，在所有標(biāo)準(zhǔn)視覺(jué)基準(zhǔn)測(cè)試中都超越了前代 Claude 3 Opus。

尤其是在需要視覺(jué)推理的任務(wù)中表現(xiàn)更為明顯，例如解釋圖表、圖形或者從不完美的圖像中轉(zhuǎn)錄文本，這是零售、物流和金融服務(wù)行業(yè)的核心功能。在這些領(lǐng)域，人工智能可以從圖像、圖形或插圖中收集到比單獨(dú)文本中更多的見(jiàn)解。

下圖為 Claude 3.5 Sonnet 與 Claude 3 Opus、GPT-4o、Gemini 1.5 Pro 在視覺(jué)數(shù)學(xué)推理、科學(xué)圖表、視覺(jué)問(wèn)答、圖表 QA、文件視覺(jué) QA 任務(wù)中的性能比較。

Artifacts—— 使用 Claude 的新方式

Anthropic 還在 Claude.ai 上推出了 Artifacts，這是一項(xiàng)擴(kuò)展用戶與 Claude 交互方式的新功能。當(dāng)用戶要求 Claude 生成代碼片段、文本文檔或網(wǎng)站設(shè)計(jì)等內(nèi)容時(shí)，這些工件會(huì)出現(xiàn)在他們的對(duì)話旁邊的專用窗口中。這創(chuàng)建了一個(gè)動(dòng)態(tài)工作空間，他們可以在其中實(shí)時(shí)查看、編輯和構(gòu)建 Claude 的創(chuàng)作，將人工智能生成的內(nèi)容無(wú)縫集成到他們的項(xiàng)目和工作流程中。

Artifacts 預(yù)覽功能標(biāo)志著 Claude 從對(duì)話式 AI 向協(xié)作工作環(huán)境的演變，并將很快擴(kuò)展到支持團(tuán)隊(duì)協(xié)作。在不久的將來(lái)，團(tuán)隊(duì)將能夠安全地將他們的知識(shí)、文檔和正在進(jìn)行的工作集中在一個(gè)共享空間中，而 Claude 則按需充當(dāng)隊(duì)友。

最后，Anthropic 表示他們對(duì)模型進(jìn)行了嚴(yán)格的測(cè)試，并致力于減少其被濫用的可能性。

Anthropic 安全團(tuán)隊(duì)對(duì) Claude 3.5 Sonnet 在化學(xué)、生物、放射性和核（CBRN）風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全和自主能力領(lǐng)域進(jìn)行了一系列的評(píng)估，最后將 Claude 3.5 Sonnet 分類為 AI 安全等級(jí) 2（ASL-2）模型，表明它不會(huì)構(gòu)成災(zāi)難性傷害的風(fēng)險(xiǎn)。

此外，作為對(duì)安全和透明度承諾的一部分，Anthropic 還與外部專家合作測(cè)試和完善這一最新模型中的安全機(jī)制。

官博地址：https://www.anthropic.com/news/claude-3-5-sonnet

責(zé)任編輯：姜華來(lái)源：機(jī)器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

力壓GPT-4o！新王Claude 3.5 Sonnet來(lái)了，直接免費(fèi)可用

比 GPT-4o 更智能

比 Claude 3 Opus 快兩倍

迄今為止最強(qiáng)視覺(jué)模型

Artifacts—— 使用 Claude 的新方式