“計算機視覺被GPT-4o終結了”(狗頭)
一夜之間,CV被大模型“解決”了(狗頭)。
萬物皆可吉卜力之后,GPT-4o原生多模態圖像生成更多玩法被開發出來。
一個男友回頭表情包,可以秒變語義分割圖。
也可以秒變深度圖。
這下不光上一代AI畫圖工具和設計師,計算機視覺研究員也哭暈在廁所了。
這是NASA前工程師測試特斯拉自動駕駛系統的偽裝“隱形墻”,在GPT-4o面前也無所遁形。
這下OpenAI應用研究主管Boris Power已經把腦筋動到了自動駕駛,稱只需要訓練最強大的基礎模型,然后微調。
3D渲染領域也慘遭毒手,GPT-4o可以生成PBR材質(基于物理渲染的材質),紋理、法線貼圖等直接來一套。
對于這些能力,也有人認為沒什么大不了的,Stable Diffusion + ControlNet就可以全部實現。
但不可否認,靠擴大基礎模型規模就能做到,也是令人意想不到的。
GPT-4o圖像生成是自回歸模型
這波GPT-4o原生圖像生成的技術細節,OpenAI是一點也沒有公布(粗節也沒有公布)。
但還是有人從System Card中發現了蛛絲馬跡。
與DALL·E是一個擴散模型不同,GPT-4o圖像生成是原生嵌入在ChatGPT內的自回歸模型。
還有人觀察圖像的生成過程,發現很可能是多尺度自回歸的組合,先生成一個粗略的圖像,填充細節的同時,粗略圖形本身也在變化。
自回歸模型根據之前的像素或patch預測下一個像素或patch,獲得更好地遵循指令,以及圖像編輯的能力。
但也有人引用發OpenAI員工Allan Jabri曬出的板書圖,提出在解碼階段仍然有可能用了擴散模型。
針對這一猜想,更具體的實現方法可以參考Meta等24年8月的一篇論文:使用一個多模態模型同時預測預測下一個token和擴散圖像。
最后,微信評論區能發圖片了,歡迎大家把更多GPT-4o有趣玩法曬出來~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model