GPT-4o預告中的語音助手“Her”真的很驚艷，但問題是我們還有多久才能夠真正上手？網友：PR鬼才奧特曼都坐不住了

原創精選

作者：伊風 2024-05-17 18:32:20

人工智能

盡管如此，AI領域的創新其實并未停滯。OpenAI的GPT-4o模型，盡管尚未完全實現其承諾，但其潛在的影響力已經足以讓科技界充滿期待。26分鐘的發布會也許足以改變人類在以后26年的工作和生活方式。

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

OpenAI 發布會中的GPT-4o給所有人都看眼饞了！

誰不想第一時間體驗下傳說中的“Her”呢？

圖片

在發布會上，GPT-4o展示了自己的“magic”：高超的語音理解水平，像人類思考般極為短暫的延時，富有幽默感和同情心的溝通方式，以及對話中途被打斷而轉入傾聽的切換能力。

加上OpenAI在發布會中說，GPT-4o功能將率先推送給Plus用戶。更讓人覺得付費玩家上手“Her”是件分分鐘的事情了！

圖片

確實已經有用戶被推送了GPT-4o的版本，但當他們迫不及待地使用語音交互功能時才發現，自己的“Her”怎么跟發布會上說好的不一樣？

因為——就是不一樣。

圖片

用戶使用的GPT-4o模型中的語音對話功能仍然是外掛的whisper模型來實現的。即需要將用戶音頻，轉為文字后再進行處理。因此當前的語音交互是“回合制”的，用戶說完話后要等待處理，不能夠隨時打斷對話。

圖片

而發布會中GPT-4o則采用的是同一個神經網絡將音頻映射到音頻的技術，是端到端的生成方式。

畢竟用戶界面顯示的是“GPT-4o”，期待所提供的語音交互，能像發布會demo中展示的一樣神奇也是理所應當。甚至許多測評也直接把舊的通話功能當成GPT-4o去測了！

誤會越來越大，這下連PR大師、營銷鬼才、阻擊谷歌發布會的多面手奧特曼本人也坐不住了。趕緊發了條X文說：“新的（GPT-4o）語音模式還未發布呢！我們發的是 GPT-4o 的文本模式哦！您目前可以在（GPT-4o）應用程序中使用的語音模式是舊版本（非GPT-4o）。

新版本非常值得期待！ ”

圖片

單是看翻譯都要把人繞糊涂了。相當于GPT-4o真正的王炸功能音頻、視頻都沒有上場，在這個前提下，新版本與GPT-4V的體驗幾乎沒啥區別！

網友在下面紛紛調侃道，不是吧……又像Sora那樣耍我們？

1、驚艷的demo，到手的半成品

根據OpenAI官網的說法，OpenAI將在未來幾周內推出具有發布會介紹功能的新語音模式 alpha 版，并為 Plus 用戶提供早期訪問權限。

圖片

有意思的是，許多用戶測試了“舊的”語音功能后感覺，“延遲短了”、“更有感情了”，恰恰說明人類也是很容易出現幻覺的。

另外，即使是GPT-4o已經提供給plus用戶的圖片多模態功能，也出現了“貨不對板”的質疑。在之前的demo展示中，GPT-4o已經在圖片中解決了一致性和字體生成的問題。

圖片

今天，OpenAI的聯創Greg Brockman在X上曬出了GPT-4o生成的第一張圖片。GPT-4o給了照片級別的答卷，一個穿著OpenAI logoT恤的男人背身站在黑板前，正在進行板書，而板書上的內容清晰可見:"模態之間的傳輸"。假設我們直接用一個大的自回歸變壓器對 P（文本、像素、聲音）建模。利弊如何？"

圖片