Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別

Aceryt

發布于 2024-5-17 12:48

瀏覽

0收藏

5月16日，OpenAI首席執行官Sam Altman接受了，硅谷著名風險投資公司紅點（Redpoint）的董事兼總經理Logan Bartlett專訪。

本周二，OpenAI重磅發布了可跨文本、視頻、音頻推理的多模態大模型GPT-4o，其多元化的玩法、低延遲以及擬人化的聲音，讓11年前的科幻電影《Her》成為現實，人人都能擁有一個超強語音AI助手，似乎人類離AGI又更近了一步。

下面，「AIGC開放社區」根據這部46分鐘的專訪視頻，以問答和解讀的方式為大家整理所有主要關鍵內容，深度了解GPT-4o以及未來將發布的GPT-5，那就讓我們開始吧。

Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別-AI.x社區

Bartlett：GPT-4o可以跨文本、視頻、音頻進行推理，這很重要嗎？

Altman：確實，我很早之前就有用語音控制計算機的想法，這是一種前所未有的綜合推理模式。

語音助手有很多，例如，蘋果的Siri但用起來非常不自然，機器味很濃，并且在語義理解方面也不是很好。所以，我想改變這一現狀。

Bartlett：GPT-4o哪些用例讓你感到很驚訝？

Altman：在發布GPT-4o之前，我體驗了一周左右的時間，其中有一個用例是讓我很驚喜的。

我只需要把手機放在桌子上與GPT-4o對話，就能完成很多之前需要頻繁切換應用、瀏覽器才能完成的工作，就像不停地切換谷歌瀏覽器標簽那樣。

所有的工作內容都可以快速為你在一個平臺中呈現出來，這對于依賴保持專注和效率的開發人員和專業人士來說是一個巨大的改變。

Bartlett：GPT-4o擁有如此特別的能力，你們做了哪些改變和嘗試？

Altman：過去幾年我們一直在研究音頻、視頻大模型，以及如何通過一種更高效的方法來訓練、結合它們。

所以，GPT-4o的出現不是偶然，也不是最近才做的決定，而是很多年的技術沉淀和積累的結果，這是一種必然會出現的產品。

Bartlett：GPT-4o的低延遲，對于用戶來說意味著什么？

Altman：GPT-4o的平均延遲只有200—300毫秒左右，這種交互效率在之前是無法想象的，也極大拓寬的了應用場景。

例如，可以幫助人們進行實時翻譯、語音交互和視頻分析等，眼睛有障礙的人通過GPT-4o可以實現重現“光明”；

而聽力受損的用戶可以基于文本和視覺功能完成日常交流；醫生可以使用 GPT-4o 實時解析醫學圖像、轉錄患者數據以及分析醫療記錄中的文本數據。

所以，醫學領域將是GPT-4o最大受益群體之一。

Bartlett：OpenAI下一步的重要產品是GPT-5嗎？會使用更新穎的架構、功能嗎？

Altman：我們現在暫時可以稱它為GPT-5，但發布的時候會很特別，可能會換一種叫法，功能也與現在的有很大不同。

例如，從OpenAI發布GPT-1到現在的GPT-4，產品功能和叫法都是比較偏傳統的。

到真正發布GPT-5時，可能名字會變，功能可能類似“虛擬大腦”一樣去幫助用戶處理各種任務，將是一種非常特別的嘗試。

Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別-AI.x社區

Bartlett：開源大模型領域正在追趕、超越，對此你有何看法？

Altman：非常好，他們做的不錯，正在將一些領先的源代碼分享給不同的群體。

Bartlett：未來的12個月，哪些應用程序領域最有前途？

Altman：編程領域，當然，這代表了我個人的偏見，但確實是這樣的。

Bartlett：《華爾街日報》曾報道過，你要花一大筆錢打造AI芯片廠與英偉達等展開競爭，真的有這個必要嗎？

Altman：首先，我有信心找到降低訓練、推理等與AI相關的開發成本，但這需要巨大的算力支撐；其次，我希望將生成式AI技術分享給全人類使用，這對算力有巨大的需求；

第三，只有更多的人使用AI，才能為其提供實時反饋，實現功能上的迭代閉環。而算力是做這三件事的重要基礎。

Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別-AI.x社區

Bartlett：人們一直在談論AGI，它到底是什么樣子的？現在來看好像這個概念還是比較抽象的，你是如何看待AGI的？

Altman：很多人會覺得AGI會像電影《星球大戰》里的浮空車那樣充滿科幻感。其實，我覺得AGI就是可以幫助用戶自動處理、協調好所有工作。例如，這個工作之前需要100人來做，現在通過AGI一個人就能做好。

Altman還談到了他在YC時的投資心得、企業成長以及對其他產品、項目的看法，有興趣的小伙伴可以查看文章中的原采訪視頻。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/xDfNbvtI-XxRb0BS5kviiw??

標簽

GPT-4o

已于2024-5-17 18:38:48修改

贊

回復

舉報

回復

相關推薦

Sam Altman：GPT-5，將會比現在的大模型更智能

Aceryt ? 2584瀏覽 ? 0回復
GPT-4o：實現跨越文本與視覺的智能交互

51CTO內容精選 ? 4311瀏覽 ? 0回復
20個具體案例揭秘：GPT-4o 如何顛覆我們的日常生活

數師兄 ? 4642瀏覽 ? 0回復
GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3515瀏覽 ? 0回復
GPT-4o做Code Review可行嗎？

51CTO技術棧 ? 3706瀏覽 ? 0回復
?天下武功唯快不破，GPT-4o真的牛

ermulong ? 2347瀏覽 ? 0回復
現在，所有人都能免費用GPT-4o了！

duhorse ? 4935瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3407瀏覽 ? 0回復
GPT-4o不香了

Crystalcxt ? 3324瀏覽 ? 0回復
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2510瀏覽 ? 0回復
OpenAI展示草莓，很快發布“GPT-5”獵戶座！

Aceryt ? 2096瀏覽 ? 0回復
Sam Altman：5年后AGI會實現，但社會變化卻很小

Aceryt ? 2657瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2227瀏覽 ? 0回復
o1就是GPT-5!前OpenAI首席研究員大爆猛料，揭露罕見內部視角！

51CTO技術棧 ? 2059瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2386瀏覽 ? 0回復
OpenAI深夜更新GPT-5路線圖，奧特曼高密度爆料全模型免費計劃。GPT-5真的要來了嗎？我懷疑

51CTO技術棧 ? 2078瀏覽 ? 0回復
Anthropic秘密「混合模型」 Claude 4首曝細節，硬剛GPT-5！深度推理模型來了

duhorse ? 2787瀏覽 ? 0回復
閑得沒事，猜猜GPT-4o如何對圖像編碼

魯班模錘1 ? 2035瀏覽 ? 0回復
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴散架構？北大&中山等開源GPT-ImgEval

angel ? 2251瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別

目錄