成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克突然「發射」Grok-2 !??爆火AI生圖網友玩瘋,數學編碼追平GPT-4o

人工智能 新聞
xAI連發兩款模型Grok-2和Grok-2 mini,相較上一代在編碼、數學、推理方面性能大漲,而且在LMSYS總榜上與GPT-4o不相上下。最讓人興奮的是,最強AI生圖Flux能力已經在??上線了。

Grok-2測試版來的,讓人猝不及防。

剛剛,Xai官方丟出一篇博文,官宣Grok-2測試版正式發布。

而且,一發就是兩彈——Grok-2 + 輕量級Grok-2 mini。

圖片

馬斯克稱,Grok進展的速度驚人,只能用坐上火箭來形容。

圖片

相較于上一代Grok-1.5,Grok-2取得了顯著的進步,在聊天、編碼、推理方面,再次刷新SOTA。

大模型競技場LMSYS上,Grok-2早期版本sus-column-r在總榜上位列第三,可與GPT-4o抗衡,碾壓Claude 3.5 Sonnet。

圖片

此外,Grok-2在「編碼」和「數學」榜單位列第2,Hard Prompts位列第4。

圖片

網友:馬斯克的Grok已經是榜上第五個GPT-4級模型了,保不齊最終版哪天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在??上開啟了測試。本月底,兩個模型的API將會放出。

值得一提的是,X平臺這次還融合了爆火的Flux AI生圖能力。

圖片

這一點,今早就有網友提前放出了預告。

圖片

就看Grok生成美女的能力,真有點TED演講者那味兒了。

圖片

下面這位網友用Luma和Grok 2.0結合后,大贊做出的視頻簡直就像電影截圖一樣。

圖片

圖片

Grok-2能力如何?

Grok-2其實早就在我們身邊了,只是沒有人得知。

如前所述,早期版本sus-column-r在LMSYS平臺,接受了多種基準的評測。

在LLM排行榜中,Grok-2整體Elo評分(1281分),優于Claude 3.5和GPT-4。

圖片

就勝率來看,Grok-2遠遠領先DeepSeek V2、Claude 3 Opus,相較于指令微調版的Llama 3.1超大杯,勝率為58%。

與GPT-4o和GPT-4o mini幾乎打成平手。

圖片

在Xai內部,研究人員采用了類似的流程,以評估模型。

這里,他們訓練了專門的AI系統——AI導師,在模擬Grok真實世界交互的任務中,與新模型進行互動。

每次互動中,AI導師會收到Grok生成的2個響應,并根據指南中列出的特定標準,選擇更優的響應。

實驗過程中,研究團隊重點評估了模型在兩個關鍵領域的能力:

一是遵循指令,二是提供準確、事實性的信息。

結果發現,Grok-2利用檢索內容進行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正確識別缺失信息、推理事件的順序,甚至剔除無關的帖子。

可以看得出,就AI導師的偏好來看,Grok-2勝券在握。

圖片

接下來,具體看看Grok-2在不同基準上的表現吧。

性能評估

研究人員在一系列基準測試中評估了Grok-2,包括推理、閱讀理解、數學、科學、寫代碼。

宏觀講,相較于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了顯著的改進。

下圖中可以看出,Grok-2和Grok-2 mini在研究生級別科學知識(GPQA)、數學競賽問題(MATH),代碼(HumanEval)領域,顯著提分10%-20%。

而且,另一個值得關注的現象是,Grok-2 mini是小參數版本的Grok-2。

但是,Grok-2 mini的性能絲毫不輸,幾乎接近大模型的性能,可見并沒有因為參數減少,而縮減模型的性能。

圖片

與前沿模型相比,Grok-2在編碼、數學、通用知識領域,與GPT-4o、Llama 3 405B有一定的差距,但結果非常接近。

它遠遠超過了GPT-4 Turno、Claude 3 Opus基準的性能。

另外,在視覺化任務中,比如視覺化數學推理(MathVista)和基于文檔的問題回答(DocVQA)上,Grok-2表現出色。

令人驚喜的是,經典的「strawberry難題」,也被Grok 2.0一舉攻克。

圖片

在??上的體驗

當然了,Grok模型的每次迭代,就是為了更好地服務??。

經過幾個月的不斷改進,全面升級之后的Grok,也有了新的界面和功能。

圖片

所有的Premium和Premium+用戶,都可以訪問這次新推出的Grok-2和Grok-2 mini。

作為??上最強的AI助手,Grok-2具備文本和視覺理解的高級能力,并集成了來自平臺的實時信息。

Grok-2 mini則是一個規模較小但功能強大的模型,提供了速度和質量之間的最佳平衡。

與前輩相比,Grok-2在廣泛的任務中更直觀、可控且多功能,無論是尋找答案、協作寫作還是解決編程任務。

圖片

圖片

最近FLUX的爆火,讓全網都見識到了這款文生圖模型的強勁實力。

如今,xAI正在與推出它的「Black Forest Labs」合作,嘗試利用FLUX.1來增強Grok在??上的功能。

網友實測生圖

拿到測試資格的網友們,已經迫不及待地上手測試了。

圖片

生成喬治華盛頓這樣人物的圖片,果然FLUX最拿手。

圖片

在吃熱狗的馬斯克,有點兒不像本尊。

圖片

說到馬斯克,下面這個海盜版大家覺得如何?

圖片

還有角斗士馬斯克,以及馬斯克在火星。

圖片

此外,也有網友生成了一張小扎拖著腮幫子眉頭緊鎖的照片。

圖片

這位網友表示,Grok 2.0的生圖功能比Llama要好,而且沒有「愚蠢的護欄」。

圖片

宮殿里的豪車、美少女戰士、一座雕塑、魔法書院,Grok都拿捏了。

圖片

看得出來,這位網友主打的就是一個精致。

圖片

加菲貓頭戴紅帽,附上「Make Mondays Great Again」,可見Grok在生成帶有字體的圖像時,也非常精致。

圖片

和聊天一樣,Grok生圖還可以生成兩種不同模式的,簡言之兩種風格的圖像——趣味和常規。

圖片

網友分別測試了這兩種模式,趣味模式下Grok的自畫像,更像是一位故事中的圣者。

圖片

而常規模式下的自畫像,反倒有些搞笑了。

它竟把自己設想成了,(類似)一份惠靈頓牛排。

圖片

API即將上線

除了能夠在??上體驗之外,Grok-2和Grok-2 mini還將在8月底正式上線企業API平臺。

xAI表示,Grok-2的API將基于新的定制技術棧。

一方面是支持多區域推理部署,可以實現全球范圍的低延遲訪問。

另一方面是支持增強的安全功能,例如強制多因素認證(如使用Yubikey、Apple TouchID或TOTP),豐富的流量統計,以及高級計費分析(包括詳細的數據導出)等等。

此外,xAI還提供了一個管理API,讓開發者和企業可以將團隊、用戶和計費管理集成到現有的內部工具和服務中。

圖片

接下來是什么?

自從2023年11月Grok-1發布以來,xAI一直在以驚人的速度發展。

現在的Grok-2和Grok-2 mini,已經具備了更強的搜索能力和改進的回復功能,并且可以對??的帖子進行更深入的洞察。

不久之后,xAI還會??和API上發布Grok的另一個核心體驗——多模態理解預覽版。

隨著Grok-2的推出,xAI再一次站到了AI開發的前沿。并且,有了新集群的加持,模型的推理能力也將得到進一步加強。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-12 17:53:27

馬斯克AIChatGPT

2024-08-15 11:15:20

2023-07-22 13:47:57

開源項目

2024-03-18 15:00:48

Grok現已開源Grok-1混合專家模型

2024-05-27 13:05:20

2023-12-13 08:46:33

人工智能ChatGPT機器人

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-06-11 07:03:00

大模型開源Qwen2

2023-11-06 10:41:46

ChatGPT馬斯克

2025-05-12 09:06:00

2024-05-15 09:13:37

GPT-4oAI

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2025-01-03 15:42:59

AI模型數據

2024-12-09 14:00:00

AI生成

2025-01-16 16:39:44

2025-03-24 08:43:00

GrokAI模型

2024-06-21 09:51:17

2024-03-29 12:48:00

數據訓練

2024-03-18 14:17:06

大模型開源人工智能

2022-12-12 13:54:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩免费在线 | av高清毛片 | www.伊人.com| 成人免费视频观看视频 | gogo肉体亚洲高清在线视 | 欧美日韩在线一区二区三区 | 日韩高清国产一区在线 | 欧美日本一区二区 | 亚洲欧美bt | 久久午夜国产精品www忘忧草 | 久久天堂网 | 成人在线观看中文字幕 | 精品国产乱码久久久久久蜜臀 | 能看的av| 精品国产欧美日韩不卡在线观看 | 黄色片网站在线观看 | 亚洲精品视频一区二区三区 | 色久伊人 | 国产一区二区在线播放 | 精品国产久 | 亚洲高清av在线 | 亚洲欧美一区二区三区国产精品 | 亚洲精品免费视频 | 日韩在线一区二区三区 | 中文字字幕在线中文乱码范文 | 精品在线一区二区 | 色综合色综合网色综合 | www.日本在线 | 黄色大片在线免费观看 | 色又黄又爽网站www久久 | 欧美激情亚洲激情 | 国产在线不卡 | 毛片区| 国产精品久久久久久模特 | 免费久久视频 | 久久视频精品 | 成人在线视频免费观看 | 亚洲精品欧美 | 精品久久亚洲 | 久草欧美 | 欧洲一区二区视频 |