出品 | 51CTO技術(shù)棧(微信號:blog51cto)
深夜,OpenAI最強對手Anthropic一口氣發(fā)布了三個SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。業(yè)界驚呼:Claude 3帶來了一系列的新的行業(yè)基準(zhǔn)。
其中,Opus寓意史詩級樂章,Sonnet是十四行詩,Haiku是俳句,三行短詩。
據(jù)悉(圖9),Haiku是AI市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內(nèi)閱讀 arXiv上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k tokens)。
圖8,對于絕大多數(shù)工作負載,Sonnet的速度比Claude 2和 Claude 2.1快2倍,且智能水平更高。它擅長執(zhí)行需要快速響應(yīng)的任務(wù),例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和2.1相似,但智能水平更高。
Opus 是目前Anthropic最智能的模型,在人工智能系統(tǒng)的大多數(shù)常見評估基準(zhǔn)上都優(yōu)于同行,包括本科水平專家知識 (MMLU)、研究生水平專家推理 (GPQA)、基礎(chǔ)數(shù)學(xué) (GSM8K) 等。它在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性,引領(lǐng)通用智能的前沿。
以上三個Claude 3模型都顯示出在分析和預(yù)測、細致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的更強的能力。
此外,Claude 3 系列擁有近乎完美的記憶能力和超長文本窗口,將提供 200K 上下文窗口。而且能夠接受超過 100 萬個tokens的輸入,后續(xù)會按客戶需求逐步放開。
整體上看,Claude3,有三個震撼之處:
1.領(lǐng)域?qū)<业幕鶞?zhǔn)。分別選擇了金融/醫(yī)學(xué)/哲學(xué)三個專家領(lǐng)域來作為測試基準(zhǔn),英偉達Research Manager Jim Fan稱“建議所有的LLM都遵循這一點,以便不同的下游應(yīng)用程序知道會發(fā)生什么”。
2.拒絕率分析。LLM對許多“無辜問題”做出了過于謹慎的回答成為了一種流行病,Claude一直致力于安全的AI研究,并做出了該方面的努力。
3.與其他領(lǐng)先模型相媲美的復(fù)雜視覺功能??梢蕴幚砀鞣N視覺格式,包括照片、圖表、圖形和技術(shù)圖表,PDF、流程圖或演示幻燈片皆可。
實際測評如何?
一位網(wǎng)友分別讓GPT4、Claude3編寫一個登陸界面的代碼,實際運行測試效果(圖13)顯示,后者在App界面設(shè)計方面更加出色。
圖1
圖2
圖3
圖4
圖5
圖6
圖7
圖8
圖9
圖10
圖11
圖12
圖13
圖14
圖15