編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
OpenAI 發布會中的GPT-4o給所有人都看眼饞了!
誰不想第一時間體驗下傳說中的“Her”呢?
圖片
在發布會上,GPT-4o展示了自己的“magic”:高超的語音理解水平,像人類思考般極為短暫的延時,富有幽默感和同情心的溝通方式,以及對話中途被打斷而轉入傾聽的切換能力。
加上OpenAI在發布會中說,GPT-4o功能將率先推送給Plus用戶。更讓人覺得付費玩家上手“Her”是件分分鐘的事情了!
圖片
確實已經有用戶被推送了GPT-4o的版本,但當他們迫不及待地使用語音交互功能時才發現,自己的“Her”怎么跟發布會上說好的不一樣?
因為——就是不一樣。
圖片
用戶使用的GPT-4o模型中的語音對話功能仍然是外掛的whisper模型來實現的。即需要將用戶音頻,轉為文字后再進行處理。因此當前的語音交互是“回合制”的,用戶說完話后要等待處理,不能夠隨時打斷對話。
圖片
而發布會中GPT-4o則采用的是同一個神經網絡將音頻映射到音頻的技術,是端到端的生成方式。
畢竟用戶界面顯示的是“GPT-4o”,期待所提供的語音交互,能像發布會demo中展示的一樣神奇也是理所應當。甚至許多測評也直接把舊的通話功能當成GPT-4o去測了!
誤會越來越大,這下連PR大師、營銷鬼才、阻擊谷歌發布會的多面手奧特曼本人也坐不住了。趕緊發了條X文說:“新的(GPT-4o)語音模式還未發布呢!我們發的是 GPT-4o 的文本模式哦!您目前可以在(GPT-4o)應用程序中使用的語音模式是舊版本(非GPT-4o)。
新版本非常值得期待! ”
圖片
單是看翻譯都要把人繞糊涂了。相當于GPT-4o真正的王炸功能音頻、視頻都沒有上場,在這個前提下,新版本與GPT-4V的體驗幾乎沒啥區別!
網友在下面紛紛調侃道,不是吧……又像Sora那樣耍我們?
1、驚艷的demo,到手的半成品
根據OpenAI官網的說法,OpenAI將在未來幾周內推出具有發布會介紹功能的新語音模式 alpha 版,并為 Plus 用戶提供早期訪問權限。
圖片
有意思的是,許多用戶測試了“舊的”語音功能后感覺,“延遲短了”、“更有感情了”,恰恰說明人類也是很容易出現幻覺的。
另外,即使是GPT-4o已經提供給plus用戶的圖片多模態功能,也出現了“貨不對板”的質疑。在之前的demo展示中,GPT-4o已經在圖片中解決了一致性和字體生成的問題。
圖片
今天,OpenAI的聯創Greg Brockman在X上曬出了GPT-4o生成的第一張圖片。GPT-4o給了照片級別的答卷,一個穿著OpenAI logoT恤的男人背身站在黑板前,正在進行板書,而板書上的內容清晰可見:"模態之間的傳輸"。假設我們直接用一個大的自回歸變壓器對 P(文本、像素、聲音)建模。利弊如何?"
圖片
從上圖來看,新方法比 OpenAI 于 2023 年 9 月推出的上一個圖像生成模型 DALL-E 3 有了明顯的改進。在 ChatGPT 中通過 DALL-E 3 運行了類似的提示,結果如下。
圖片
布洛克曼分享的使用 GPT-4o 創建的圖像在質量、逼真度和文本生成的準確性方面都有顯著提高。
不過,評論區有網友感到疑惑:“我們用的是同一個GPT-4o嗎?”
圖片
乍一看這張圖片還算逼真,能看出網友本想生成一個Greg Brockman在瀏覽X的圖片。放大看看發現屏幕上的文字猶如天書,GPT-4o在生成正確的文字方面沒堅持了多久就開始了“鬼畫符”。即使網友嘗試了多輪提示詞也仍然如此。
二、半成品的世界,谷歌輸在哪了?
今早,奧特曼突然公開發文諷刺谷歌審美不行。
圖片
他發布了OpenAI和Google發布新產品的現場,并配文“我嘗試不去多想我們的競爭對手,但我忍不住去想我們兩者間巨大的審美差距”。
不過,雖然奧特曼嘴上說著不想考慮競爭對手,但卻偏偏將新品發布挪到了谷歌的前一天。
雖然谷歌的CEO在I/O大會前接受彭博社的采訪中說,他不認為自己是一位因循守舊的領導者,他在上任初期就宣布未來的谷歌將以AI為導向,這在那時是非常激進的舉措。
但從谷歌所發布的產品來看,他們的確在做優化和防守的相關工作。
英偉達科學家Jim Fan說,谷歌做的最正確的一件事,就是開始將人工智能認真地融入自家的搜索框了。
圖片
有人在谷歌的X文下尖刻的評論道,“OpenAI所展示的東西正在送貨。然而你們的舞臺上卻只有一個小丑”。
圖片
另一個人則回復道,“公平點吧!OpenAI用戶界面也沒發布他們的新功能啊,就算是充值用戶,不還是DALL-E 3、TTS那一套嗎?”不過他又話鋒一轉的說,“不過我覺得他們發貨還是會比谷歌的Astra”更快的。
圖片
三、寫在最后
在當今的科技領域,人工智能(AI)無疑是最具變革性的、最為人所關注的技術之一。
然而,隨著AI技術的快速發展,我們也目睹了一種令人擔憂的趨勢:從模型到軟件再到硬件,整個AI領域似乎都陷入了一種“半成品炒作”的模式。這種模式不僅消耗了公眾的耐心,也對行業的健康發展構成了威脅。
AI技術的炒作現象,從Sora、human的AI PIN到最近備受爭議的rabbit,已經引起了廣泛的不滿。科技公司本可以等待一切進入ready狀態后,再向用戶發布他們的產品。而如今卻越來越加速,用戶買到手中的半成品可以運行的功能有時少得可憐。
公眾對于“fake it until you make it”的策略感到厭煩,他們渴望的是實實在在的技術進步和開箱即用的體驗。
這種炒作不僅掩蓋了AI技術發展的真實狀況,也可能導致對AI潛力的過度樂觀預期。
分析專家認為,AI技術的增速放緩,部分原因在于技術瓶頸和安全問題的挑戰。以GPT-5為例,盡管市場對其充滿期待,但其遲遲未能面世,可能是因為研發過程中遇到了難以克服的技術障礙。
與此同時,硬件供應的變化也反映了AI發展的現狀。根據硅谷科技博主的爆料,幾個月前供不應求的高性能GPU,而現在無需預訂就可以完成購買。隨著芯片公司的競爭加劇,英偉達一家獨大的局面可能會被打破,市場供應開始趨于穩定。
盡管如此,AI領域的創新其實并未停滯。OpenAI的GPT-4o模型,盡管尚未完全實現其承諾,但其潛在的影響力已經足以讓科技界充滿期待。26分鐘的發布會也許足以改變人類在以后26年的工作和生活方式。
但是,我們真正想要的良性發展,是AI科技能夠擺脫炒作的陰影,以更加穩健的步伐,為人類社會帶來真正的有益的變革和安全的進步。
參考鏈接:
1.https://simonwillison.net/2024/May/15/chatgpt-in-4o-mode/
2.https://twitter.com/howie_serious/status/1790890586486267970