?作者 | 云昭
3月9日,微軟德國CTO Andreas Braun在AI kickoff會議上帶來了一個期待已久的消息:“我們將于下周推出GPT-4,屆時我們將推出多模式模式,提供完全不同的可能性——例如視頻。”
言語之中,他將大型語言模型(LLM)比作“游戲改變者”,因為他們教機器理解自然語言,然后機器以統計的方式理解以前只能由人類閱讀和理解的東西。與此同時,這項技術已經發展到“適用于所有語言”:你可以用德語提問,也可以用意大利語回答。借助多模態,微軟(-OpenAI)將“使模型變得全面”。
那么看來,GPT-4將是一個多模態大模型基本可以確定無疑了。但如果想提前知道有關GPT-4的真面目,并非無跡可尋。
一、預測:GPT-4基于此前多模態大語言模型Kosmos-1
其實早在3月1日,我們注意到微軟就發表了多模態的大語言模型Kosmos-1。如果GPT-4是多模態的,我們可以合理地預測GPT-4能夠做什么。
KOSMOS-1是一種多模態大型語言模型(MLLM),能夠感知多模態輸入,遵循指令,并執行上下文學習任務,也可以是多模態任務。在這項工作中,將視覺與大型語言模型(LLM)對齊,推動了從LLM向MLLM的演進。
斯坦福博士、英偉達AI科學家Jim Fan基于此做出了5點具體的預測:
(1)視覺智商測試:是的,人類參加的測試!(2)無OCR閱讀理解:輸入屏幕截圖、掃描文檔、路牌或任何包含文本的像素。直接對內容進行推理,無需顯式OCR。這對于解鎖多媒體網頁上的AI驅動的應用程序或來自現實世界攝像頭的“野外文本”非常有用。(3)多模態聊天:就圖片進行對話。你甚至可以在中途提供“后續”圖片。(4)廣泛的視覺理解能力,如字幕、視覺問答、物體檢測、場景布局、常識推理等。(5)音頻和語音識別:在Kosmos-1論文中沒有提到,但Whisper已經是一個OpenAI API,應該很容易集成。
Jim認為基于Andreas最近宣布的內容做出的預測,可能有些出入。但 Kosmos-1已經做到這些了。有理由相信,它提供了GPT-4或微軟接下來將提供的任何人工智能服務的能力。“很難相信Kosmos-1會留在實驗室,而不成為產品”。
多模態大模型應用示例:圖像捕捉、圖像問答、OCR、可視化對話
Jim建議從業者,“請為多模態API做好準備——它們遲早會出現!”
二、GPT-4會成為AGI?遠遠不夠
首先,準確度的問題仍然不夠。當被問及操作可靠性和事實保真度時,微軟德國高級人工智能專家Siebler表示AI不會總是正確回答,因此有必要進行驗證。微軟目前正在創建置信度指標來解決此問題。客戶通常僅在自己的數據集上使用AI支持,主要用于閱讀理解和查詢庫存數據,其中模型已經相當準確然而,模型生成的文本仍然是生成性的,因此不容易驗證。Siebler說:“我們圍繞它建立了一個反饋循環,包括贊成和反對。”這是一個迭代過程。
其次,數據不夠。即便多模態的GPT-4即將展現出強大的視覺、聽覺、閱讀理解和推理能力,但這僅僅是AGI的冰山一角,以類人機器人為例,機器人的控制數據很難做到統一,而且,這些控制數據與機器人硬件有關,差異很大。因此,無法輕松組合來自不同真實機器人的訓練數據,與文本、視頻、圖像、音頻等數據有著質的不同。
三、GPT-4的兩個謠言
1.百萬億參數?假的!
GPT-4是OpenAI正在創建的一種新的語言模型,它可以生成類似于人類語音的文本。它將推進基于GPT-3.5的ChatGPT所使用的技術。
早在2021年8月,行業專家就推測GPT-4將具有100萬億個參數,但當時就有人表示:用更多參數構建AI并不一定能保證更好的性能,并且可能影響響應性。
但ChatGPT之父Altman很快就辟謠了:ChatGPT的下一個版本不會是AGI,也不會有100萬億個參數。那些謠言是不正確的。
2.Bing聊天是否使用GPT-4?
微軟曾表示,新的Bing或Bing Chat比ChatGPT更強大。由于OpenAI的聊天使用GPT-3.5,因此有人推測,Bing聊天可能使用GPT-4。這一點尚未得到證實。
很明顯,Bing Chat已經升級,可以通過互聯網訪問當前信息,這是對ChatGPT的一個巨大改進,在此之前,它只能從2021之前接受的訓練數據中受益。
除了互聯網的接入,用于Bing聊天的AI模型要快得多,這在從實驗室取出并添加到搜索引擎中時非常重要。
但這似乎不太可能等同于OpenAI的GPT-4模型。如果GPT-4已經公開可用,則無需再秘而不宣了。
四、GPT-4:一種進化,而不是革命
毫無疑問,即將到來的GPT-4,肯定會給人留下深刻印象,但OpenAI首席執行官Sam·Altman在StrictlyVC采訪中表示,“人們正在‘乞求’失望,他們會失望的。”
Altman之前還曾在推特上表示:AGI對世界經濟造成巨大破壞的潛力,并表示,快速推出幾項小變化,總比令人震驚的進步要好,因為它幾乎沒有為世界提供適應變化的機會。
無獨有偶,世界級人工智能大神Ben Goertzel也給GPT-3/GPT-4潑了不少冷水:
當然,現在人們應該注意到,投入這些“知識重新排列”系統(如 ChatGPT)的美元和人力的數量遠遠大于投入替代人工智能方法的數量,這些方法更多地尊重扎根的、自我修正的認知的復雜性。
1970年代末 - 90年代初對多層神經網絡的全面懷疑和對專家系統的擁護看起來天真、陳舊和愚蠢,像極了現在的樣子。
同樣,到2020年代中期/后期,今天對LLM滿懷幻想的熱情和對更微妙的 AGI 方法的油嘴滑舌的駁斥將看起來太荒謬了
我在這個帖子中的觀點,并不是說這些基于LLM的系統不酷或無用——只是它們是一種時髦的新型窄人工智能技術,它與AGI的聯系并不像它出現在表面上,或者正如一些評論者所聲稱的那樣。
簡而言之,GPT-4將是一場進化,而不是一場革命。
五、寫在最后
很明顯,ChatGPT 4不太可能成為OpenAI下一個產品的名稱,但會帶來一些創造性的想象,ChatGPT的名字,極有可能與驅動其改進的AI模型GPT-4結合起來。AI從業者及管理者需要重點關注GPT-4、ChatGPT目前的工作進展,以及OpenAI何時可能發布下一次重大升級。
最后,想對大家說,下周發布GPT-4是否符合本文的預測并不重要,包括我們期待的國產大模型“文心一言”也是如此。重要的是,開發者或者所在的企業是否已經做好準備來迎接多模態大模型的API。何其有幸,這些都有希望在2024之前到來!
參考鏈接:
https://arxiv.org/abs/2302.14045
https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html
https://t.co/JbtQvjoJ3W