成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅僅一天,Gemini就奪回了GPT-4o拿走的頭名

人工智能 新聞
太卷了,大模型迭代開始以「周」為單位了嗎?

一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜單的頭把交椅。

圖片


對于苦苦追趕 OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。

可惜振奮的時間不長:昨天,GPT-4o 一個更新,把第一名的位置搶回來了。

圖片

奧特曼慶功的話音剛落,Gemini-Exp-1121 殺出來,又把第一名搶走了。

圖片

谷歌工程師還順帶嘲諷了一波:

圖片

位次的變化實在太快,讓人有點恍惚了。難道接下來,大模型迭代要以「周」為單位了嗎?

圖片

狂卷基準測試,真有意義嗎?

有人猜測,莫非這就是谷歌逐漸過渡到 Gemini 2 的發布方式?但這種可能性不大,因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言,各家在訓練階段的 Scaling Law 上都遇到了一些瓶頸,提升模型能力的希望更多轉向了后訓練階段。我們最終看到的下一代大模型,或許和目前的技術路線大不相同。

圖片

目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均為可用狀態:

圖片

從官方發布的介紹來看,Gemini-Exp-1114 的亮點主要在于質量改進,而最新的 Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。

這場爭奪戰的出現,卻引出了另外一個角度的話題:當前的人工智能基準測試方法可能大大簡化了模型評估。

就比如一周前,當研究人員控制了響應格式和長度等表面因素時,Gemini-Exp-1114 的表現下降到第四位,因為傳統指標可能會夸大感知能力。

這種差異揭示了人工智能評估中的一個根本問題:模型可以通過優化表面特征而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關注引發了一場爭奪更高分數的競賽,行業對排行榜的依賴也會催生一些不良激勵方式,而這些都無關于人工智能的真正進步。

各個廠商針對特定測試場景優化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產生的 AI 系統擅長完成狹隘的預定任務,但在處理細微的現實世界互動時卻舉步維艱。

比如有人就發現在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在數學和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。

圖片

廠商之間為獲得更高的基準分數而展開的競爭并不會停止,但真正的競爭可能在于如何開發全新的框架來評估和確保人工智能系統的安全性和可靠性。

OpenAI 考慮用瀏覽器挑戰谷歌霸主地位

谷歌和 OpenAI 不僅在大模型領域有點針鋒相對,在瀏覽器方面,OpenAI 正在加緊追趕。

圖片


當谷歌 Chrome 瀏覽器深陷反壟斷之際,OpenAI 出手了。

據《Information》周四報道,OpenAI 最近考慮開發一款可與其 ChatGPT 聊天機器人集成的 web 瀏覽器,并推出了 NLWeb(Natural Language Web)搜索技術,以增強對旅游、食品、房地產和零售等行業的搜索。

報道還稱,OpenAI 已與 Conde Nast、Redfin、Eventbrite 和 Priceline 等網站和應用程序開發商討論過這款搜索產品。

據知情人士透漏,為了達到這一目標,OpenAI 聘請了谷歌 Chrome 團隊創始成員 Ben Goodger 以及其他前 Chrome 關鍵開發人員進行研發,展現了 OpenAI 對開發瀏覽器濃厚的興趣。

領英資料顯示,此前 Ben Goodger 是 Chrome 團隊的創始成員,今年 6 月加入 OpenAI

這一系列舉措可能會讓 OpenAI 與占據瀏覽器和搜索市場最大份額的谷歌展開競爭。此前,OpenAI 已經通過 SearchGPT 進入搜索市場。

報道還稱,OpenAI 討論了為三星制造的設備提供人工智能功能,而三星是谷歌的主要商業合作伙伴。

此前,OpenAI 已經與蘋果建立了合作伙伴關系,Apple Intelligence 功能現已使用 OpenAI 的技術。

不過,目前尚不清楚 OpenAI 何時會推出瀏覽器,《Information》報道稱,OpenAI 距離推出瀏覽器還差得很遠。

如今看來,谷歌不僅面臨來自 OpenAI 的壓力,在美國司法部認為谷歌應該出售其 Chrome 瀏覽器以結束其在在線搜索領域的壟斷地位后,谷歌在瀏覽器市場的主導地位變得岌岌可危。

如果 OpenAI 成功推出新的瀏覽器,它將成為谷歌最大的競爭對手。

吃瓜網友們也是紛紛看好 OpenAI,表示道「OpenAI 是非常有潛力開發出一款非常棒的瀏覽器的,因為他們現在已經有了搜索功能。」

圖片

不過也有網友并不看好:「就我個人而言,瀏覽器對我已經沒什么用了,因為我現在只需向聊天機器人提問,就能立即得到答案,而且無需廣告或嘗試多個頁面。」

圖片

還有人用一個故事表達了自己的觀點:「Nicholas Negroponte 曾經討論過超級計算機的應用,并講述了一個關于他們展示科學計算器應用的故事。所有的投資者都非常生氣 ——『我們花費了數百萬美元,而你們所做的只是重新創建了計算器?我們已經有計算器了!』如果 OpenAI 開發一款瀏覽器,我認為可能會發生同樣的事情。」

圖片

我們暫且不管 OpenAI 何時推出瀏覽器,單就最近幾天這兩家機構在模型更新速度上,就已經相當激烈了,OpenAI 正面剛谷歌還會繼續。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-11-22 12:39:56

2024-08-02 14:58:00

2024-05-20 08:20:00

OpenAI模型

2025-04-08 02:26:00

2024-05-21 12:22:38

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2024-05-15 09:58:06

谷歌大模型

2024-05-14 08:23:27

GPT-4oAI技術

2025-05-26 09:05:00

2024-06-21 09:51:17

2025-03-31 08:44:00

GPT-4o模型技術

2024-06-27 12:45:30

2024-09-23 15:10:00

2025-03-31 08:50:00

AI生成模型

2024-12-18 13:24:30

谷歌AI大語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人激情视频在线观看 | 日韩欧美精品 | 色精品视频 | 久久精品亚洲 | 亚洲男女视频在线观看 | www.亚洲免费 | 天天操夜夜骑 | 国产精品久久久久久妇女6080 | 成人一区二区三区在线观看 | 久久久久国产 | 欧美成人在线免费 | 亚洲成人一二区 | 久久久精品一区 | h在线播放 | 中文字幕一区二区三区乱码图片 | 欧美a√ | 国产一区二区三区免费 | 国产一区二区自拍 | 国产精品区二区三区日本 | 毛片综合 | 中文字幕成人av | 欧美性极品xxxx做受 | 国产 日韩 欧美 在线 | 久久精品国产一区二区电影 | 久久综合狠狠综合久久 | 国产一区二区在线91 | 亚洲欧美日韩一区 | 久艹网站| 九九热在线观看视频 | 国产在线观看福利 | 日韩精品在线视频免费观看 | 一区观看 | 精区3d动漫一品二品精区 | 国产一区二区三区在线免费观看 | 欧美日韩国产在线观看 | 国产精品 欧美精品 | 欧美激情欧美激情在线五月 | www九色| 亚洲国产一区二区三区 | 日韩成人免费在线视频 | 在线视频a |