ChatGPT-4o有何特別之處?

AI洞察Insight

發布于 2024-6-4 08:53

瀏覽

0收藏

大家已經知道，OpenAI 在 GPT-4 發布一年多后終于推出了一個新模型。它仍然是 GPT-4 的一個變體，但具有前所未見的多模態功能。

有趣的是，它包括實時視頻處理等強大功能，這一關鍵功能最終可以讓我們創建強大的虛擬助手，實時支持我們的日常生活。然而，這樣的功能應該很昂貴且緩慢，考慮到該模型速度極快且免費使用(有限免費)，這不合情理。

那么，到底發生了什么事呢？

OpenAI 一定已經意識到了一些我們尚未意識到的事情，即我們今天討論的智能設計決策可以以極低的價格創建出更智能的模型。

那么，這一切有何意義？它對你未來意味著什么？

多模態輸入,多模態輸出

那么，ChatGPT-4o 有什么特別之處呢？它是有史以來第一個真正的“多模態輸入/多模態輸出”前沿模型。

但我們這樣說到底是什么意思呢？

在真正的多模態模型中，您可以向模型發送音頻、文本、圖像或視頻，模型將根據需求使用文本、圖像或音頻（還不是視頻）進行響應。

但我知道你在想什么：ChatGPT 或 Gemini 的先前版本不是已經處理和生成圖像或音頻了嗎？是的，但有一個需要注意的點是：

他們是通過獨立的外生組件來實現的。

之前的模型和現在模型對比

以前，每當你向大模型發送音頻時，都是這樣的標準流程：

ChatGPT-4o有何特別之處?-AI.x社區

輸入輸出過程：用戶發出的語音請求經過自動語音識別（ASR）轉為文本(這里用的Whisper)，文本經過大語言模型處理生成響應文本，響應文本再經過文本轉語音（TTS）模塊轉換為語音，最終以語音形式返回給用戶。

Whisper 是由 OpenAI 開發的一種自動語音識別（ASR）系統。它利用深度學習技術和大規模語音數據進行訓練，能夠將語音信號轉換為文本。Whisper 系統具有高準確性和多語言支持，能夠處理各種音質和背景噪聲的語音輸入。

在此過程中，自然語音中的聲調、節奏、韻律、傳達的情感和關鍵停頓都會丟失，因為語音轉文本組件Whisper會將音頻轉錄為 LLM 可以處理的文本。

然后，LLM 將生成文本響應并將其發送到另一個組件（即文本到語音模型），該模型將生成最終傳達的語音。

自然，由于人類通過語音傳達的信息遠不止文字，許多重要信息也因此丟失，而且由于信息必須在不同的組件之間發送，造成的延遲并不理想。

但是在 ChatGPT-4o 中，一切都相似但又完全不同；因為一切都發生在同一個地方。

ChatGPT-4o有何特別之處?-AI.x社區

乍一看，似乎變化不大。盡管組件幾乎沒有變化（vocoder和音頻解碼器是我們之前展示的文本轉語音模型的一部分），但這些組件如何共享信息,完全改變了信息丟失的程度。

具體來說，LLM 現在看到的是語音的語義表示，而不是原始文本。通俗地說，模型現在不僅能看到“我想殺了你！”這句文字，還能接收到以下信息：

{
 轉譯的文字: "我想殺了你!"; 
 情緒: "高興";
 語氣: "喜悅";
}

這里雖然使用了 JSON 示例來說明，但語音編碼器實際上為 LLM 生成的是一組向量嵌入(Vector Embeddings)，除了實際文本之外，它們還捕捉語音的情感、語調、節奏和其他線索。
向量嵌入是一種將離散的數據（如單詞、句子、圖像等）映射到連續的低維向量空間的方法。這些向量捕捉了數據的語義關系，使得相似的數據在向量空間中更接近。

因此，LLM 生成的響應更加基于實際情況，除了文字之外，還能捕捉信息中的關鍵特征。

然后將該響應發送到音頻解碼器，音頻解碼器使用它來生成梅爾頻譜圖（很可能），最后將其發送到聲碼器以生成音頻。