40%算力訓練效果比肩GPT-4，實測DeepMind聯創大模型創業新成果

作者：量子位 2024-03-08 13:18:44

人工智能新聞

Inflection-2.5，由DeepMind聯創Mustafa Suleyman的大模型初創公司打造。只用40%的計算資源訓練，表現就超過了GPT-4的九成，尤其擅長代碼和數學。

大模型競賽，又殺出一匹黑馬——

Inflection-2.5，由DeepMind聯創Mustafa Suleyman的大模型初創公司打造。

只用40%的計算資源訓練，表現就超過了GPT-4的九成，尤其擅長代碼和數學。

而早期的Inflection模型，訓練時只消耗了4%的計算資源，就達到了GPT-4表現的72%。

以Inflection模型為基礎，該公司還推出了網頁端對話機器人Pi，主打“高情商”和“個性化”，還支持中文。

自誕生以來，Pi的最高日活達到了100萬，累計產生了40億條消息，平均對話時長來到了33分鐘。

而隨著這次基礎模型的升級，Pi也迎來了它的新版本。

圖片

那么，Inflection，或者說Pi，表現到底有沒有那么強，量子位進行了一番實測。

無需登錄即可使用

打開Pi的頁面，映入眼簾的是這樣一個極簡界面，而且還可以不用登錄，直接點擊Next。

圖片

連續Next幾次后，輸入希望Pi稱呼我們的方式。

圖片

之后是選擇聲音和推薦話題，直接跳過就可以了，然后就進入正式的聊天界面了。

圖片

簡單測試發現，Pi支持中文對話，既然如此那就先把弱智吧Benchmark給安排上。

第一題，老鼠生病了可以吃老鼠藥治好嗎，Pi成功解答。

圖片

再來一道“陷阱”題，這次依舊沒有上當。

圖片

兩道問題過后，雖然沒有出現什么戲劇性效果，但看起來對中文也是有一定的理解了。

接下來就重點看看官方宣稱“尤其擅長”的數學和代碼能力。

首先是一道涉及動態規劃的編程題目。

圖片

Pi給出的代碼成功解決了這個問題，并且配有清晰的解釋。

圖片

接下來再提升一下難度看看，讓其分析一個數字的階乘中末尾有多少個0。

圖片

Pi給出的代碼不僅正確，而且簡潔高效，運行速度超過了LeetCode上73.8%的用戶。

圖片

最后再來增加一下難度，以一道47.5%通過率的題目結束代碼部分的測試。

圖片

看完代碼，再來測測Pi的數學能力怎么樣，讓它做做關于導數的題目：

求出函數f(x)=x3+2x2-1的極值點

解答完全正確，而是十分詳細。

當然要想數學好，邏輯思維是必不可少的，所以我們在常規的數學題之外，又用一道經典的題目考驗了一下的Pi邏輯思維，結果還不錯。

通過Pi的表現，可以看出其背后的Inflection-2.5模型的確可圈可點。

而從官方自己公布的測試數據來看，無論是綜合能力還是各個子項，Inflection-2.5的表現都緊隨GPT-4。

以數學和代碼為例，Inflection-2.5在MATH、HumanEval等測試中都比1.0版本都有大幅飛躍。

在這些常規的數據集之外，Inflection還挑戰了匈牙利高考數學試題和GRE物理測試，結果幾乎與GPT-4打成平手。

更“刁鉆”的，還有人專門用大模型難以理解的問題構建了一個BIG-Bench數據集，而Inflection-2.5挑戰了其中的Hard子集，結果和GPT-4的差距不到一分。

那么，Inflection-2.5的背后，是怎樣的一家公司呢？

DeepMind聯創大模型創業

這家公司名叫Inflection AI，由DeepMind聯創Mustafa Suleyman等人于2022年創立，目前共有70余人。

同樣來自DeepMind的，還有資深研究員Karen Simonyan，現擔任Inflection AI的首席科學家。

此外，LinkedIn聯創Reid Hoffman也參與了Inflection AI的創立。

創立以來，Inflection AI已經獲得了來自英偉達、微軟、比爾蓋茨等巨頭的共計15億美元的融資。

目前，基于Inflection的Pi還是免費的，但CEO Suleyman也表示，一直用愛發電不現實，長久地看以后還是要收費。

想要體驗的朋友，可能要抓緊時間了~

傳送門：https://pi.ai

責任編輯：張燕妮來源：量子位

模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

40%算力訓練效果比肩GPT-4，實測DeepMind聯創大模型創業新成果

無需登錄即可使用

DeepMind聯創大模型創業