性能直追GPT-4,5000個H100訓(xùn)成!DeepMind聯(lián)創(chuàng)發(fā)全新一代大模型
最近,InflectionAI發(fā)布了全新的一款A(yù)I模型。
更炸裂的是InfectionAI對這款模型的評價(jià)——性能直超谷歌和Meta開發(fā)的兩款模型,緊隨OpenAI的GPT-4之后。
到底是什么樣的表現(xiàn)讓InflectionAI能夸下如此??谀??
在介紹具體的模型性能以前,我們先來看看它的基本信息。
這款A(yù)I模型名叫Inflection-2,在多項(xiàng)標(biāo)準(zhǔn)的基準(zhǔn)測試中,成績碾壓谷歌5月發(fā)布的PaLM Large 2模型,還在很多不同的項(xiàng)目中擊敗了Meta開發(fā)的LLaMA-2.
圖片
這么來看,InflectionAI確實(shí)可以有這個自信。
公司內(nèi)部人員表示,總體而言Inflection的新模型是同類產(chǎn)品中性能最好的,可以說僅次于OpenAI發(fā)布的旗艦?zāi)P?GPT-4,而后者我們都知道,要大得多。
InflectionAI的首席執(zhí)行官M(fèi)ustafa Suleyman在接受采訪時表示,「我們相信,我們只是處于下一步技術(shù)推進(jìn)的起點(diǎn),AI模型所展現(xiàn)出來的性能,以及即將出現(xiàn)的新功能確實(shí)令人震撼。」
集成到Pi?
除了新模型的發(fā)布,還有另外一個重磅信息。
相關(guān)人員表示,新發(fā)布的模型將很快集成到Inflection于5月份發(fā)布的聊天機(jī)器人Pi中。
CEO Suleyman也講到,首先模型的集成還需要一些額外的工作,即「對齊」,技術(shù)人員會教它Pi的語氣和回答風(fēng)格,并幫助Pi在吸收最新信息時更好地發(fā)揮作用,而不會產(chǎn)生額外的幻覺。
「無論你想就種族、性別、政治、競家OpenAI,或當(dāng)下任何有爭議的問題進(jìn)行可能有那么點(diǎn)敏感的對話,Pi都會非常巧妙、謹(jǐn)慎地與你進(jìn)行實(shí)事求是的交流,并實(shí)時在互聯(lián)網(wǎng)上獲取信息。Pi將很快更新出新模式?!?/span>
圖片
Suleyman表示,不會太久。但是具體發(fā)布日期卻沒有明說。
同時,他也不愿意提供聊天機(jī)器人Pi的最新用戶數(shù)量,但表示Pi非常受歡迎,用戶留存率相當(dāng)高。
要知道,兩周前,OpenAI曾經(jīng)披露其免費(fèi)的ChatGPT服務(wù)的周用戶數(shù)量已達(dá)到1億。
當(dāng)然,這之后還發(fā)生了我們耳熟能詳?shù)腛penAI董事會版宮斗,突然臨時解雇了首席執(zhí)行官Sam Altman(當(dāng)然現(xiàn)在他已經(jīng)回來了)。
不過,預(yù)計(jì)Pi發(fā)布后,InflectionAI的用戶量也會有一波大規(guī)模的上漲。畢竟Inflection發(fā)布的大型語言模型號稱是 當(dāng)今世界上能力第二強(qiáng)的LLM。
相比LLM業(yè)內(nèi)也會因?yàn)镮nflection-2的發(fā)布繼續(xù)出現(xiàn)動蕩的局面。
此外,CEO Suleyman表示,Inflection AI在今年早些時候剛剛獲得了一輪13億美元的融資,不過這筆大額融資也并沒有提前Inflection-2的發(fā)布。
不過,輿論場中有些聲音還是傳了出來,InflectionAI將會在年底發(fā)布新模型。但Suleyman表示,模型的訓(xùn)練已經(jīng)結(jié)束,還有一些后續(xù)工作需要處理,所以發(fā)布時間出現(xiàn)了推遲。
性能吊打一眾模型,只輸GPT-4
為了訓(xùn)練Inflection-2,Inflection AI使用了5000個英偉達(dá)H100圖形處理器(GPU),要知道,訓(xùn)練Inflection-2的前身模型,使用的是幾千個相對比較舊的A100圖形處理器。
Suleyman表示,新模型的訓(xùn)練速度更快、成本更低,但即便如此,還是能處理大量運(yùn)算(10的25次方FLOPs)。
InflectionAI還與微軟、英偉達(dá)和CoreWeave在進(jìn)行緊密合作,管理其龐大的計(jì)算集群。
Inflection用一些專業(yè)級任務(wù)的流行基準(zhǔn)(MMLU)測試了新模型的性能,該基準(zhǔn)向模型提出了從各類世界知識到問題解決和道德規(guī)范等57個主題的各種問題。
下圖即為Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之間的性能對比。
圖片
我們可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六項(xiàng)基準(zhǔn)上,Inflection-2都拔得了頭籌。
Suleyman表示,Inflection-2的性能已經(jīng)超過了最大的700億參數(shù)版本的LLaMA 2、馬斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能僅次于GPT-4。
報(bào)告顯示,新模型在七項(xiàng)科學(xué)性回答的基準(zhǔn)測試中,除兩項(xiàng)外,均擊敗了LLaMA 2和PaLM 2模型,它還在三項(xiàng)問答任務(wù)基準(zhǔn)測試中的兩項(xiàng)測試中表現(xiàn)最佳,但在一項(xiàng)測試中輸給了PaLM 2 Large。
此外,在四項(xiàng)數(shù)學(xué)和代碼基準(zhǔn)測試中,它的成績依舊可圈可點(diǎn),雖說這些領(lǐng)域和前面的測試比起來沒那么是重點(diǎn)。
不過,在OpenAI已分享結(jié)果的兩項(xiàng)基準(zhǔn)測試中,它的成績遠(yuǎn)遠(yuǎn)落后于GPT-4。
Suleyman繼續(xù)介紹說,雖然除了AI研究人員和開發(fā)人員之外,這些基準(zhǔn)測試對其他普通人來說可能并沒那么重要,但微小的改進(jìn)就能讓笨拙的原型與生產(chǎn)級、可靠且高質(zhì)量的模型截然不同。
總的來說,Suleyman認(rèn)為Inflection-2在同類產(chǎn)品中可以說是規(guī)模最大的,與GPT-4非常非常接近。
從行動上,我們也可以看到InflectionAI對新模型的滿意程度。公司規(guī)劃顯示,從現(xiàn)在起,Inflection就將把培訓(xùn)重點(diǎn)轉(zhuǎn)移到下一個型號的模型上。
相關(guān)人士預(yù)測說,下一個型號的模型(大膽猜測是Inflection-3)將在六個月內(nèi)達(dá)到剛聊完的新模型的10倍,而再過六個月,性能又將達(dá)到上一代型號的10倍。
一句話說明,就是InflectionAI的人有自信,在12個月內(nèi),讓模型規(guī)模翻個一百倍。
個人助理「Pi」
對于不熟悉的朋友,咱們還是掉過頭來再講講InflectionAI的個人助理「Pi」。
咱們可以這么說,CEO Suleyman的認(rèn)知里,這一切都是很自洽的。
曾經(jīng),他還寫過一本書《The Coming Wave》,全書有一個核心觀點(diǎn)就是,未來AI能讓人類徹底遠(yuǎn)離心理問題。
而Suleyman之所以有這樣的論斷,也許和他自己的經(jīng)歷有關(guān):
1984年,他出生于倫敦北部,父親是敘利亞人,母親是英國人。他在貧困中長大,16歲時,父母分居,兩人都移居國外,留下他和弟弟自謀生路。
后來他被牛津大學(xué)錄取,學(xué)習(xí)哲學(xué)和神學(xué),但一年后就退學(xué)了。
這種人生經(jīng)歷,讓Suleyman格外關(guān)注人類的心理健康。當(dāng)然,就少不了這一part和涌現(xiàn)出來的新技術(shù)的結(jié)合。
他的這番說法也絕不是空想,他創(chuàng)立的Inflection AI,目標(biāo)就是開發(fā)出一個全能的個人助理,解決每個人在生活中可能遇到的幾乎一切問題。
這個個人助理,就是「Pi」。
圖片
而這一切也是有理論基礎(chǔ)的。
心理學(xué)還真有這個研究:聊天機(jī)器人相比人類有著更高的情感認(rèn)知。
測試針對的是人類在不同場景下表現(xiàn)出來的同理心進(jìn)行打分。測試對象被給予20種情感情境的詳細(xì)描述,比如葬禮、職業(yè)成功或侮辱,并描述他們在這種情況下可能感受到的情緒。
情緒描述越詳細(xì)、越容易理解,情緒意識水平量表(LEAS)得分越高。
研究人員使用與人類反應(yīng)相同的標(biāo)準(zhǔn)來評估ChatGPT的反應(yīng),并將結(jié)果與先前在法國17至84歲人群(n = 750)中進(jìn)行的研究進(jìn)行了比較。
在進(jìn)行的兩次測試中,ChatGPT獲得了85和98的高分,而人類的表現(xiàn)就完全被AI碾壓。男性56,女性59分,甚至沒有及格。
圖片
很多研究結(jié)果都曾指出,AI聊天機(jī)器人在心理健康方面可以為人類提供其他任何工具都沒法比擬的幫助。
可以這么說,相比于其他生產(chǎn)效率方面的應(yīng)用,大語言模型似乎天生就更適合進(jìn)行感情方面的理解和溝通。畢竟,人類之間傳遞感情,語言是最重要的載體。
那么,Suleyman創(chuàng)立的Inflection AI推出的個人助理「Pi」已經(jīng)上線有幾個月,表現(xiàn)究竟如何,大家心里可能也都有定論了。
圖片
我們可以看到,Pi的登錄界面還是非常簡潔的。
圖片
進(jìn)入到Pi的聊天頁面,點(diǎn)擊左下角的田字格,可以看到官方為用戶準(zhǔn)備的幾個常用場景。
每個場景相當(dāng)于一個定制化指令,選擇一個之后,就會自動給聊天機(jī)器人設(shè)定一個工作環(huán)境。
聊天機(jī)器人也會針對每個場景給用戶一個開頭的提示,比如選擇了「motive myself」之后,系統(tǒng)會提示我要如何開始聊天。
圖片
總而言之,「Pi」寄托了Suleyman的美好愿望。
而有了新模型Inflection-2的加持,相信「Pi」會迸發(fā)出更加不一樣的火花。
說不定,真能充當(dāng)心理咨詢的角色呢。
參考資料: