OpenAI 首次推出 GPT-4o“全能”模型,干翻所有語音助手
OpenAI 在本周一(2024年5月13號)推出了一款名為 GPT-4o 的新旗艦級生成式AI模型。這里的“o”代表“全能”,因為這款模型能夠處理文本、語音和視頻三種不同的輸入。在未來幾周內,GPT-4o 將逐步應用于公司針對開發者和消費者的各類產品。
OpenAI 的技術總監 Mira Murati 表示,雖然 GPT-4o 仍然保持著 GPT-4 的智能水平,但它在多種媒介和模式上進行了顯著的提升。Murati 在周一于舊金山的 OpenAI 辦公室通過網絡演講指出:“GPT-4o 能夠跨語音、文本和視覺進行推理。這一能力極其關鍵,因為它代表了我們與機器互動的未來方向。”
此前的 GPT-4 Turbo 是 OpenAI 的前沿模型,通過圖像和文本的結合訓練,能夠完成從提取圖像中的文本到描述圖像內容等任務。新的 GPT-4o 在此基礎上添加了語音處理功能。
這一改進將使用應用場景更加豐富。
例如,GPT-4o 極大地優化了 OpenAI 的AI聊天機器人 ChatGPT 的使用體驗。盡管該平臺之前已提供語音模式,使用文本到語音技術轉換機器人的回答,但 GPT-4o 的加入使得與 ChatGPT 的互動更加貼近真實的助理體驗。
用戶現在可以在 ChatGPT 回答問題時中斷它,而這款模型可以實時響應。OpenAI 指出,它甚至能夠捕捉到用戶聲音中的細微變化,并據此生成不同情感風格的回答,包括唱歌。
此外,GPT-4o 還提升了 ChatGPT 在圖像處理方面的能力。無論是分析一張照片還是電腦屏幕,ChatGPT 現在能夠迅速解答從“這段軟件代碼是用來做什么的?”到“這個人穿的是哪個品牌的襯衫?”等各種問題。
OpenAI 的技術總監 Murati 指出,他們的新模型 GPT-4o 將在未來展示更多先進的功能。目前,GPT-4o 可以翻譯不同語言的菜單圖片,未來可能還能實時“觀看”體育比賽并向觀眾解釋比賽規則。
Murati 強調:“盡管這些模型越來越復雜,我們還是希望用戶與之交互時感覺更自然、更簡便。我們的目標是讓用戶遠離復雜的用戶界面,更多地專注于與 ChatGPT 的互動。這些年我們一直在努力提升模型的智能化水平,而現在,我們在使用便利性上也實現了質的飛躍。”
此外,OpenAI 表示,GPT-4o 在處理多語言方面也有顯著提升,可以支持約50種語言。在 OpenAI 的 API 和 Microsoft 的 Azure OpenAI 服務中,GPT-4o 的速度是前一代模型 GPT-4 Turbo 的兩倍,成本只有一半,并且具備更高的請求限制。
由于存在濫用風險,GPT-4o 的語音功能目前還未向所有客戶開放。OpenAI 計劃在未來幾周內首先向一小批受信任的合作伙伴開放新的音頻功能。
從今天起,GPT-4o 將在 ChatGPT 的免費版本中提供,同時,對于訂閱了 OpenAI 高級服務 ChatGPT Plus 和團隊計劃的用戶,消息限額提高了5倍。一旦用戶達到使用限制,系統將自動切換到較舊的 GPT-3.5 模型。針對 Plus 用戶的基于 GPT-4o 的語音體驗改進版將在下個月初推出,同時也將提供面向企業的服務選項。
在其他相關更新中,OpenAI 宣布推出新版的 ChatGPT 網頁界面,界面更注重對話性,還推出了 macOS 版本的 ChatGPT 桌面應用,用戶可以通過鍵盤快捷鍵提問或討論截圖。從今天開始,ChatGPT Plus 用戶將優先獲得應用訪問權限,Windows 版本將在今年晚些時候發布。
此外,OpenAI 的 GPT Store 現已向所有 ChatGPT 免費用戶開放。該庫為第三方聊天機器人提供了基于 AI 模型的創建工具。免費用戶還可以享受以前需要付費的功能,如記憶功能,允許 ChatGPT 記住用戶的偏好設置,上傳文件和照片,以及搜索網絡回答實時問題。
GPT-4o模型評估
**文本評估:**GPT-4o 在推理能力上取得了顯著的進步——在不提供初始樣本常識性問題測驗( 0-shot COT MMLU)中,GPT-4o 取得了88.7%的高分記錄。這些評測結果是使用我們新開發的簡易評測庫(鏈接將在新窗口中打開)來收集的。同時,在傳統的提供五個樣本(5-shot)無鏈式推理(no-CoT)的MMLU評測中,GPT-4o 也刷新了紀錄,達到了87.2%的得分。
音頻語音識別性能:GPT-4o 在語音識別方面相比于 Whisper-v3 取得了巨大進步。無論是資源豐富的語言還是資源較少的語言,GPT-4o 在所有語言上的表現都有顯著提升,尤其在那些資源較少的語言上,其改進尤為明顯。
**音頻翻譯性能:**GPT-4o 在語音翻譯領域創立了新的行業高標準,并且在 MLS 基準測試中的表現超過了 Whisper-v3。
M3Exam 基準:M3Exam 基準測試同時涉及多語言和視覺評估,包含了來自不同國家標準化考試的多項選擇題,題目中有時會出現圖表和示意圖。在所有語種的這項測試中,GPT-4o 相比 GPT-4 顯示出了更優的表現。
**視覺理解評估:**GPT-4o 在視覺感知基準測試上達到了最先進的性能。所有的視覺評估都是在沒有任何先前示例的情況下完成的(0-shot),包括 MMMU、MathVista 和 ChartQA 這些測試都采用了0-shot鏈式推理(CoT)方法。