成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

代碼能力超越GPT-4,這個模型登頂Big Code排行榜,YC創始人點贊

人工智能
這個模型名叫Phind,和以其為基礎的面向開發者的AI搜索工具同名。它是由開發團隊在CodeLlama-34B的基礎之上微調得到的。Phind利用TensorRT-LLM在H100上可以跑出每秒100個token的速度,是GPT-4的5倍。

一款號稱代碼能力超越GPT-4的模型,引發了不少網友的關注。

準確率比GPT-4高出超過10%,速度卻接近GPT-3.5,而且窗口長度也更長。

據開發者描述,他們的模型取得了74.7%的Pass@1通過率,超過了原始GPT-4的67%,登上了Big Code榜首。

圖片
圖片

這個模型名叫Phind,和以其為基礎的面向開發者的AI搜索工具同名。

它是由開發團隊在CodeLlama-34B的基礎之上微調得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100個token的速度,是GPT-4的5倍。

此外,Phind的上下文長度達到了16k,其中12k可供用戶輸入,另外4k保留給檢索結果中的文本。

圖片

針對這個產品,網友們議論紛紛,結果是喜憂參半:

支持的人,如著名創業投資公司YCombinator創始人Paul Graham表示,Phind可以讓人們用更少的資源和大廠抗衡。

圖片

也有網友具體列出了Phind的優點:

圖片

不認可Phind的網友則說,自己之前用GPT-4寫的代碼,Phind寫不出來:

圖片

更是有人吐槽說,GPT“每天都在被打敗”,但是從來沒被超越過。

圖片

有意思的是,在Phind應用當中,自研模型又被稱作“fast model”,而“best model”仍然是GPT-4。

(雖然沒明說,但是GPT-4和best model的剩余可用次數是同步變化的)

圖片

所以,這個號稱“擊敗了GPT-4”的模型到底是不是真的那么好用,我們進行了一番實測。

Phind vs GPT-4

正式開始之前,先來說說對Phind的第一印象。

它的界面十分簡潔,主要就是一個搜索框,而且不需要登錄就能無限量使用。

左下角有一個Pair Programmer的開關,直觀上的區別就是開啟之后回答界面更側重對話,不開啟的話則更像搜索引擎。

此外,還可以從自研模型和GPT-4中選擇,GPT-4則需要登錄,而且每天只能用10次。

圖片

接下來就是和GPT-4進行的對比測試,GPT-4沒有開啟代碼解釋器。

首先還是從LeetCode題目開始測起,Prompt就是是原問題加上下面這段話:

請用Python寫一段代碼解決這個問題,給出通用的解法,不需要設定參數值,代碼需要以如下內容開頭:
(LeetCode頁面中給出的起始片段)

為了防止Phind通過檢索來“作弊”,我們還在Phind的Prompt結尾加入了這句話:

不要檢索任何信息,靠你自己的能力創建代碼

第一題在LeetCode中被歸為組合數學問題,難度為困難,通過率67.1%。

圖片

Phind給出了這樣的代碼和解釋,經過測試,20條測試數據中有19項正確。

圖片

出錯的是這一條,這里的輸出結果應該是3,但Phind給出的程序運行結果是4。

圖片

我們試著反饋給Phind,看它能不能找出錯誤的原因,結果分析一番之后給出了新的代碼,并通過了測試。

圖片

而GPT-4這邊,則是一次性通過。

圖片

進入下一題,這道題目涉及到了動態規劃,通過率為53.9%。

圖片

這次Phind和GPT-4都是以一次通過。
圖片
圖片

第三道題目的通過率只有約30%,但它的難度可能在于用來判題的測試數據太龐大了。

Phind給出的這段代碼就在通過前12組測試數據之后出現了運行時間超限的現象。

圖片

我們讓它試著進行優化,結果這次直接是算不對了。

圖片
圖片

而GPT-4則輕松解決,不過在解釋說明部分有些錯誤,因為超級回文數的概念中的描述是“回文數的平方”而不是“平方是回文數”。

圖片

三道LeetCode題目測試下來,Phind以一平兩負的成績輸給了GPT-4。

但需要說明的是,這里我們為了測試模型本身表現,通過提示詞關閉了Phind的檢索功能,但從實用角度出發,如果保留搜索,Phind還是能很好地解決這些問題的。

接著,我們又測試了一下他們的實際開發能力,這次的題目是掃雷游戲。

Phind會問我們有沒有什么特殊要求,這里我們直接點跳過。

圖片

然后Phind會對任務進行拆解,對每個子任務又分別進行檢索。

圖片

這時的代碼也是分段給出的,有趣的是,在生成過程中,Phind會使用不同來源中的代碼。

圖片

然后我們讓Phind給出完整代碼,并通過鏈接的第三方平臺直接運行。

結果呢,我們一進去就看到程序已經非?!百N心”地把雷的位置清楚地標注好了。

圖片

不過這次,GPT-4的代碼更加離譜一些,運行出來是這樣的:

圖片

雖然都沒做對,但硬要比較的話,這一輪,Phind略勝一籌。

一路測試下來,很難判斷它們孰優孰劣,但考慮到搜索能力,以及免費免登錄的特性,Phind還是可圈可點的。

參考鏈接:

https://www.phind.com/blog/phind-model-beats-gpt4-fast。

責任編輯:姜華 來源: 量子位
相關推薦

2023-03-23 21:57:06

OpenAIChatGPTAI

2025-05-30 07:40:56

2023-07-22 13:09:51

模型開源

2024-01-30 21:18:57

模型智能CMMLU

2023-10-08 13:11:00

訓練數據

2013-10-29 09:05:30

OpenStack亞馬遜API開源云

2015-10-23 09:35:57

融資YC創始人投資

2023-06-21 13:22:16

GPT-4模型

2015-05-19 14:34:17

程序員編程語言

2024-03-27 13:32:00

AI數據

2025-03-28 12:10:30

2023-11-15 13:19:14

2023-05-16 13:32:23

模型排行

2013-04-03 10:00:11

2024-04-12 17:41:28

GPT-4TurboClaude

2013-08-23 09:41:19

2010-05-24 10:21:27

iBATISApacheGoogle Code

2022-07-05 14:36:48

算法人工智能

2024-02-27 12:14:42

AI模型

2023-09-11 15:57:16

人工智能模型GPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品一区二区三区不卡 | 日本一区二区高清视频 | 亚洲男人的天堂网站 | 欧美一级毛片久久99精品蜜桃 | 国产亚洲日本精品 | 国产欧美日韩一区 | 成人免费视频网站 | 成人高清视频在线观看 | 久久久av | 久久一区二区三区四区 | 亚洲性爰 | 午夜丁香视频在线观看 | 天天干天天插天天 | 91九色porny首页最多播放 | 国产一级免费视频 | 在线视频一区二区三区 | 国产成人网 | 久热精品在线观看视频 | 久久成人精品视频 | 日韩国产在线 | 午夜视频在线 | 成人免费视频在线观看 | 日韩中文字幕网 | 无码日韩精品一区二区免费 | 超碰人人艹| 欧美h视频 | 中文福利视频 | 91精品国产综合久久久亚洲 | 日日操操 | 精品99久久 | 欧美电影在线观看网站 | 欧美在线视频观看 | 韩国毛片视频 | 久久狠狠| 69亚洲精品 | 久久久久久久久99精品 | 国产一区二区三区视频在线观看 | 精品一二区 | 精品视频在线观看 | 国产一区在线免费观看 | 亚洲国产精品久久久 |