Sam Altman:GPT-4o幕后揭秘,GPT-5會很特別
5月16日,OpenAI首席執行官Sam Altman接受了,硅谷著名風險投資公司紅點(Redpoint)的董事兼總經理Logan Bartlett專訪。
本周二,OpenAI重磅發布了可跨文本、視頻、音頻推理的多模態大模型GPT-4o,其多元化的玩法、低延遲以及擬人化的聲音,讓11年前的科幻電影《Her》成為現實,人人都能擁有一個超強語音AI助手,似乎人類離AGI又更近了一步。
下面,「AIGC開放社區」根據這部46分鐘的專訪視頻,以問答和解讀的方式為大家整理所有主要關鍵內容,深度了解GPT-4o以及未來將發布的GPT-5,那就讓我們開始吧。
Bartlett:GPT-4o可以跨文本、視頻、音頻進行推理,這很重要嗎?
Altman:確實,我很早之前就有用語音控制計算機的想法,這是一種前所未有的綜合推理模式。
語音助手有很多,例如,蘋果的Siri但用起來非常不自然,機器味很濃,并且在語義理解方面也不是很好。所以,我想改變這一現狀。
Bartlett:GPT-4o哪些用例讓你感到很驚訝?
Altman:在發布GPT-4o之前,我體驗了一周左右的時間,其中有一個用例是讓我很驚喜的。
我只需要把手機放在桌子上與GPT-4o對話,就能完成很多之前需要頻繁切換應用、瀏覽器才能完成的工作,就像不停地切換谷歌瀏覽器標簽那樣。
所有的工作內容都可以快速為你在一個平臺中呈現出來,這對于依賴保持專注和效率的開發人員和專業人士來說是一個巨大的改變。
Bartlett:GPT-4o擁有如此特別的能力,你們做了哪些改變和嘗試?
Altman:過去幾年我們一直在研究音頻、視頻大模型,以及如何通過一種更高效的方法來訓練、結合它們。
所以,GPT-4o的出現不是偶然,也不是最近才做的決定,而是很多年的技術沉淀和積累的結果,這是一種必然會出現的產品。
Bartlett:GPT-4o的低延遲,對于用戶來說意味著什么?
Altman:GPT-4o的平均延遲只有200—300毫秒左右,這種交互效率在之前是無法想象的,也極大拓寬的了應用場景。
例如,可以幫助人們進行實時翻譯、語音交互和視頻分析等,眼睛有障礙的人通過GPT-4o可以實現重現“光明”;
而聽力受損的用戶可以基于文本和視覺功能完成日常交流;醫生可以使用 GPT-4o 實時解析醫學圖像、轉錄患者數據以及分析醫療記錄中的文本數據。
所以,醫學領域將是GPT-4o最大受益群體之一。
Bartlett:OpenAI下一步的重要產品是GPT-5嗎?會使用更新穎的架構、功能嗎?
Altman:我們現在暫時可以稱它為GPT-5,但發布的時候會很特別,可能會換一種叫法,功能也與現在的有很大不同。
例如,從OpenAI發布GPT-1到現在的GPT-4,產品功能和叫法都是比較偏傳統的。
到真正發布GPT-5時,可能名字會變,功能可能類似“虛擬大腦”一樣去幫助用戶處理各種任務,將是一種非常特別的嘗試。
Bartlett:開源大模型領域正在追趕、超越,對此你有何看法?
Altman:非常好,他們做的不錯,正在將一些領先的源代碼分享給不同的群體。
Bartlett:未來的12個月,哪些應用程序領域最有前途?
Altman:編程領域,當然,這代表了我個人的偏見,但確實是這樣的。
Bartlett:《華爾街日報》曾報道過,你要花一大筆錢打造AI芯片廠與英偉達等展開競爭,真的有這個必要嗎?
Altman:首先,我有信心找到降低訓練、推理等與AI相關的開發成本,但這需要巨大的算力支撐;其次,我希望將生成式AI技術分享給全人類使用,這對算力有巨大的需求;
第三,只有更多的人使用AI,才能為其提供實時反饋,實現功能上的迭代閉環。而算力是做這三件事的重要基礎。
Bartlett:人們一直在談論AGI,它到底是什么樣子的?現在來看好像這個概念還是比較抽象的,你是如何看待AGI的?
Altman:很多人會覺得AGI會像電影《星球大戰》里的浮空車那樣充滿科幻感。其實,我覺得AGI就是可以幫助用戶自動處理、協調好所有工作。例如,這個工作之前需要100人來做,現在通過AGI一個人就能做好。
Altman還談到了他在YC時的投資心得、企業成長以及對其他產品、項目的看法,有興趣的小伙伴可以查看文章中的原采訪視頻。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
