「中杯」Claude 3.5突然上線，竟比GPT-4o還強！全新Artifacts改寫模型交互

作者：新智元 2024-06-21 09:57:00

Anthropic曾許下要超越OpenAI的發家愿望，沒想到竟然這么快就實現了。他們剛剛發布的Claude 3.5 Sonnet模型不僅成本更低、速度更快，而且在基準測試上的表現「彎道超車」GPT-4o。

繼今年3月發布Claude 3之后，Anthropic在半年時間里又上新了！

就在今天，Claude 3.5 Sonnet發布，作為即將推出的Claude 3.5模型家族的「排頭兵」，而且已經面向全球開啟免費試用。

具體來說， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多項評測中超過了OpenAI最強的GPT-4o，以及自家的Claude 3 Opus。

與此同時，Claude 3.5 Sonnet還保持著中等規模的模型所具有的速度和成本優勢。

其中，在費用方面，Claude 3.5 Sonnet處理每百萬輸入token僅需3美元，每百萬輸出token則為15美元。（與前代相同）

用戶可以在Claude.ai和Claude iOS應用程序上免費體驗，如果訂閱了Claude Pro和團隊計劃，則可以享受更高的速率；此外，還可以通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本僅1/5

Claude 3.5 Sonnet雖然在零樣本MATH和MMLU評測中小幅落后GPT-4o，但在研究生級推理（GPQA）、本科級知識（MMLU）和編碼能力（HumanEval）上，毋庸置疑地刷新了SOTA——

不僅大幅領先自家的前代老大哥Claude 3 Opus，而且還完成了對谷歌Gemini 1.5 Pro和Meta 4000億參數的Llama（早期預覽版）的全面超越。

它在理解細微差別、幽默和復雜指令方面有顯著提升，并且能夠用自然、貼近生活的語調撰寫高質量內容。

在運行速度方面，Claude 3.5 Sonnet也是Claude 3 Opus的兩倍。

這種性能提升，再加上高性價比，使Claude 3.5 Sonnet非常適合處理復雜任務，如上下文敏感的客戶支持和多步驟工作流程的協調。

在內部的智能體編碼評估中，Claude 3.5 Sonnet解決了64%的問題，優于Claude 3 Opus的38%。

結果顯示，在指令和相關工具的支持下，Claude 3.5 Sonnet可以獨立編寫、編輯和執行代碼，具備復雜的推理和故障排除能力。

尤其是，它能夠輕松處理代碼翻譯，因此在更新遺留應用程序和遷移代碼庫方面效果極佳。

視覺能力超越GPT-4o

在視覺方面，Claude 3.5 Sonnet也是Anthropic迄今為止推出的最強大模型，不僅明顯優于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分測試中也都超過了GPT-4o。

這些改進在需要視覺推理的任務中尤為明顯，例如解釋圖表和圖形。

不僅如此，Claude 3.5 Sonnet還可以準確地從不完美的圖像中轉錄文本——這是零售、物流和金融服務領域的核心能力。

在這些領域里，AI從圖像、圖形或插圖中獲得的信息往往要比單純的文本來得更多。

基準測試中體現的這種強大視覺能力如何落實到現實應用中呢？下面這個demo給你答案。

像GPT-4o、Gemini這些模型雖然理解圖像和視頻的能力很強，但一般只能生成文字的描述內容，在這方面我們人類顯然更擅長，能比模型做得更快更好。

但Claude不僅能準確識別、轉錄圖像中的文字內容，還結合了強大的代碼生成能力，多個模態真正集成在一起。

看一眼圖片，立刻識別信息生成JSON文件，手速絕對快過任何程序員。

還能通過編碼制造交互式圖表，代碼直接可運行，數據也絲毫不差。

不僅僅是代碼，根據圖片信息生成的網頁也是圖文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude幫你5分鐘內趕上DDL。

領域專家最為鐘愛

在附帶的報告中，Anthropic還補充了一些其他測試的結果。

報告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf

表4展示了Claude 3.5 Sonnet在「拒絕請求」時的表現。

這里，團隊使用的而是Wildchat和XSTest數據集進行測試，從而衡量模型在面對無害提示時避免不必要的拒絕，同時在面對有害內容時保持適當的謹慎。

可以看到，Claude 3.5 Sonnet在這兩個維度上都優于Opus：它的錯誤拒絕更少，正確拒絕更多。

表5、圖1和圖2展示了Claude 3.5 Sonnet在「大海撈針」任務中的表現。

可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能幾乎不相上下，但在平均召回率方面Claude 3.5 Sonnet還是要略勝一籌。

此外，從下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本長度和200K長上下文之間，召回率居然沒有出現明顯滑落，這是包括Opus在內的所有前代模型的突破。

在基于人類反饋的評估方面，團隊把從Claude 2.1開始的所有模型都拉了出來。

其中，人類評審需要與模型進行對話，并根據任務特定的指令對其進行評估。

圖3展示了與Claude 3 Opus基線相比的「勝率」（win rate）。

可以看到， Claude 3.5 Sonnet不僅在編碼、文檔、創意寫作和視覺等核心能力上有著顯著的改進，而且領域專家們也更加喜歡——在法律領域的勝率高達82%，在金融領域為73%，在哲學領域為73%。

Artifacts：讓團隊實現無縫協作

除了模型的更新之外，Anthropic還Claude.ai上推出了一項全新功能——Artifacts，擴展了用戶與Claude互動的方式。

具體來說，當用戶要求Claude生成代碼片段、文本文檔或網站設計等內容時，只需要一鍵點擊，這些Artifacts會出現在對話旁邊的專用窗口中。

這樣就創建了一個動態工作空間，用戶可以實時查看、編輯并基于Claude的創作進行構建，將AI生成的內容無縫集成到他們的項目和工作流程中。

這個功能的添加，大大增強了Claude在復雜項目中的可用性。

比如想要創建一個交互式的游戲界面，你很難在一次對話中描述清楚所有的功能與需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到滿意的結果。

于是，你可以參考軟件開發的流程，將需求分解為多個步驟，更方便Claude Sonnet進行「漸進式開發」和迭代。

比如下面這個demo中，想要創建一個游戲，可以先讓模型用SVG格式生成你想要的角色形象。

再把所有這些SVG圖像放在同一個HTML網頁中。

最后，規定好角色名稱和游戲規則，只需要告訴Claude讓這個游戲變得「可玩」，不用操心任何代碼細節，一個簡單的網頁游戲就制作完成了。

Artifacts的推出，標志著Claude從對話式AI向協作工作環境的轉變。

當然，這還只是一個開始。

不久的將來，團隊——最終是整個組織——將能夠在一個共享空間中安全地集中他們的知識、文檔和正在進行的工作，Claude將作為按需的隊友提供服務。

網友：被震撼到了！

模型剛剛發布，就有早期測試者發帖表示「被震撼到了」！

我是Claude 3.5 Sonnet模型的早期測試者，我對輸出的一致反應是「超神」，模型現在已向所有人開放。
Claude 3.5 Sonnet在關鍵評估上優于競爭模型，速度是Claude 3 Opus的兩倍，但成本只有五分之一，能勝任自主編碼和視覺處理等復雜任務，而且可以管理長文檔，確保 RAG、搜索/檢索以及比較多個長文檔等任務的準確性。
以及，我個人使用體驗的反饋：從來不需要跟它說「不，你沒明白我的提示，請執行這個操作」，它就是能理解提示并做到了；Artifact讓我更有效率；文本推理/比較的結果優秀到不可思議。

有網友表示，自己不相信基準，于是便拿了道真題來了波實測。

結果不出所料，Claude 3.5 Sonnet很快就做了出來，而GPT-4o則在一通長篇大論之后給出了錯誤的答案。

Ethan Mollick表示，Anthropic新推出的「Artifacts」用起來有點類似于簡化版的代碼解釋器。

下面，就是他用Claude創建并編輯一個游戲的實時視頻。

大局觀

那么Claude 3.5 Sonnet在Anthropic和整個AI生態系統中有什么重要意義呢？

首先是性能方面，由于當前模型架構的固化以及訓練所需的巨大計算量，在沒有重大研究突破的情況下，我們很難看到從GPT-3到GPT-4那樣的飛躍。

比如，谷歌（Gemini 1.5 Pro）和OpenAI（GPT-4o）發布的旗艦產品，在基準測試和性能方面都只有小幅的提升。

其次，隨著生成式AI廠商將注意力轉向數據策劃和許可，而不是新的可擴展架構，投資者似乎對生成式AI的投資回報周期比預期更長感到擔憂。

不過，Anthropic因為處在對抗OpenAI的關鍵位置上，因此在一定程度上不會受到這種壓力的影響。

但值得注意的是，Anthropic到2024年底的預計收入只有不到10億美元，僅僅是OpenAI的「零頭」。

第三，盡管客戶群在不斷增長，包括Bridgewater、Brave、Slack和DuckDuckGo等家喻戶曉的品牌，但它仍然缺乏一定的企業知名度。正如最近與普華永道合作向企業轉售生成式AI產品的是OpenAI，而不是Anthropic。

對此，Anthropic正在采取一種戰略性且成熟的方法來開擴市場——將更多的研發投入到像Claude 3.5 Sonnet這樣的產品上，從而在市場價格下提供稍好的性能。

可以看到，Claude 3.5 Sonnet的定價與Claude 3 Sonnet相同：每百萬個輸入模型的token收費3美元，每百萬個模型生成的token收費15美元。

最后，Claude 3.5 Sonnet雖然沒有解決大模型的「幻覺」問題，但它可能足夠有吸引力，讓開發者和企業轉向Anthropic的平臺。而這才是Anthropic關心的。

為此，Anthropic加大了對工具的投入，比如：

- 實驗性的引導AI，允許開發者「引導」模型的內部特性；

- 集成使其模型能夠在應用程序中執行操作；

- 基于模型構建的工具，比如最新的Artifacts。

此外，它還聘請了一位Instagram聯合創始人擔任產品負責人。

總體來說，Anthropic似乎已經意識到，圍繞模型構建一個生態系統，而不僅僅是孤立的模型，是保持客戶的關鍵，因為模型之間的能力差距正在縮小。

最后，讓我們拭目以待吧。

責任編輯：張燕妮來源：新智元

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看