成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI終于Open一回:DALL-E 3論文公布、上線ChatGPT,作者一半是華人

人工智能 新聞
打開 ChatGPT 就能用 DALL?E 3 生成圖片了,OpenAI 還罕見地發布了一些技術細節。

圖片

終于,「OpenAI 又 Open 了」。在看到 OpenAI 剛剛發布的 DALL?E 3 相關論文后,一位網友感嘆說。

DALL?E 3 是 OpenAI 在 2023 年 9 月份發布的一個文生圖模型。與上一代模型 DALL?E 2 最大的區別在于,它可以利用 ChatGPT 生成提示(prompt),然后讓模型根據該提示生成圖像。對于不擅長編寫提示的普通人來說,這一改進大大提高了 DALL?E 3 的使用效率。

圖片

此外,與 DALL?E 2 相比,DALL?E 3 生成的圖質量也更高。

圖片

DALL?E 2 與 DALL?E 3 的生成效果對比。對于同樣的 prompt「一幅描繪籃球運動員扣籃的油畫,并伴以爆炸的星云」,左圖 DALL?E 2 在細節、清晰度、明亮度等方面顯然遜于右圖 DALL?E 3。

即使與當前最流行的文生圖應用 Midjourney 相比,DALL?E 3 也能打個平手甚至超越 Midjourney。而且與 Midjourney 相比,DALL?E 3 不需要用戶自己掌握復雜的 Prompt 編寫知識,使用起來門檻更低。

圖片

DALL?E 3 vs. Midjourney 文生圖效果。prompt:這幅插畫描繪了一顆由半透明玻璃制成的人心,矗立在驚濤駭浪中的基座上。一縷陽光穿透云層,照亮了心臟,揭示了其中的小宇宙。地平線上鐫刻著一行醒目的大字 「Find the universe within you」。

這一模型的發布引發了不小的轟動,也再次鞏固了 OpenAI 技術領頭羊的形象。一時間,所有人都很好奇,這么炸裂的效果是怎么做到的?不過,令人失望的是,當時 OpenAI 并沒有透露技術細節,就像之前發布 GPT-4 時一樣。

不過,一個月后,OpenAI 還是給了大家一些驚喜。在一份篇幅達 22 頁的論文中,他們闡述了針對 DALL?E 3 所做的改進。論文要點包括:

  • 模型能力的提升主要來自于詳盡的圖像文本描述(image captioning);
  • 他們訓練了一個圖像文本描述模型來生成簡短而詳盡的文本;
  • 他們使用了 T5 文本編碼器;
  • 他們使用了 GPT-4 來完善用戶寫出的簡短提示;
  • 他們訓練了一個 U-net 解碼器,并將其蒸餾成 2 個去噪步驟;
  • 文本渲染仍然不可靠,他們認為該模型很難將單詞 token 映射為圖像中的字母

除了論文之外,OpenAI 還公布了一個重要消息:DALL?E 3 已經正式上線 ChatGPT,Plus 用戶和 Enterprise 用戶都可以使用。以下是機器之心的試用效果:

如果對結果不滿意,你還可以直接讓它在原圖的基礎上修改:

不過,隨著對話長度的增加,生成結果變得有些不穩定:

在文字生成方面,DALL?E 3 已經提升了不少:

不過,在面對中文時,它的表現仍然較差:  

為了保證 DALL?E 3 輸出內容的安全性和合規性,OpenAI 也做了一些努力,確保模型輸出的內容是被檢查過的,而且不侵犯在世藝術家的版權。

當然,要了解 DALL?E 3 背后的技術,還是要詳細閱讀論文。以下是論文介紹:

論文概覽

OpenAI 發布的 DALL?E 3 相關論文總共有 19 頁,作者共有 15 位,半數為華人,分別來自 OpenAI 和微軟。

論文地址:https://cdn.openai.com/papers/dall-e-3.pdf

論文提出了一種解決提示跟隨(prompt following)問題的新方法:文本描述改進(caption improvement)。本文假設現有的文本 - 圖像模型面臨的一個基本問題是:訓練數據集中的文本 - 圖像對的質量較差,這一問題在其他研究中也已經被指出。本文建議通過為數據集中的圖像生成改進的文本描述來解決這個問題。 

為了達到這一目標,該研究首先學習了一個具有穩健性的圖像文本生成器,它可以生成詳細、準確的圖像描述。然后,將此文本生成器應用到數據集以生成更詳細的文本。最終在改進的數據集上訓練文本 - 圖像模型。

其實,用合成數據進行訓練并不是一個全新的概念。本文的貢獻主要在于研究者構建了一個新穎的具有描述性的圖像文本系統,并對用合成文本訓練生成的模型進行了評估。該研究還為一系列評估建立了一個可重復的基準性能概要文件,這些評估用于測量提示執行的情況。

在接下來的章節中,第 2 節對訓練圖像文本生成器的策略進行了全面概述,第 3 節對在原始文本和生成文本上訓練的文本到圖像模型進行了評估,第 4 節對 DALL-E 3 進行了評估,第 5 節討論了限制和風險。

下面我們看看每個章節的具體內容。

數據集重描述(Recaptioning)

OpenAI 的文本到圖像模型是在大量 (t, i) 對組成的數據集上進行訓練的,其中 i 是圖像,t 是描述圖像的文本。在大規模數據集中,t 通常源于人類作者,他們主要對圖像中的對象進行簡單描述,而忽略圖像中的背景細節或常識關系。

更糟糕的是,在互聯網上找到的描述往往根本不正確或者描述與圖像不怎么相關的細節。OpenAI 認為所有的缺陷都可以使用合成描述來解決。

  • 構建圖像描述生成器

圖像描述生成器與可以預測文本的傳統語言模型非常相似。因此,OpenAI 首先提供了語言模型的簡單描述。這里先用分詞器(tokenizer)將字符串分解為離散的 token,以這種方式分解之后,語料庫的文本部分就表示為了序列 t = [t_1, t_2, . . . , t_n]。然后通過最大化以下似然函數來構建文本語言模型。

接下來若想將該語言模型轉換為描述生成器,只需要對圖像進行調整即可。因此給定一個預訓練的 CLIP 圖像嵌入函數 F (i),OpenAI 將語言模型目標做了如下增強。

  • 微調描述生成器

為了改進在圖像生成數據集上的描述效果,OpenAI 希望使用描述生成器來生成圖像描述,這有助于學習文本到圖像模型。

在首次嘗試中,他們構建了一個僅能描述圖像主對象的小規模描述數據集,然后繼續在這個數據集上訓練自己的描述生成器。該過程誘導的更新到 θ 使得模型偏向于描述圖像的主對象。OpenAI 將這種微調生成的描述稱為「短合成描述」。

OpenAI 做了第二次嘗試,創建了一個更長的、描述更豐富的文本數據集,來描述微調數據集中每個圖像的內容。這些描述包括圖像的主對象,以及周圍對象、背景、圖像中的文本、風格、顏色。

他們在該數據集上對基礎文本生成器進行進一步微調,并將該文本生成器生成的文本稱為「描述性合成描述」。下圖 3 展示了真值、短合成和描述性合成描述的示例。

評估重描述(re-captioned)數據集

OpenAI 利用重描述數據集,開始評估訓練模型對合成文本的影響。他們尤其試圖回答以下兩個問題:

  1. 使用每種類型的合成描述對性能有什么影響
  2. 合成描述與真值描述的最佳混合比例是多少?
  • 合成與真值描述混合

像文本到圖像擴散模型這樣的似然模型都有一個不好的傾向,即對數據集中的分布規律過擬合。當說到在合成描述上訓練時,則需要考慮這個問題。

OpenAI 的描述生成器模型可能有很多難以檢測的模態行為,但如果該模型基于描述進行訓練,則這些行為將變成文本到圖像模型的偏差。

解決這一問題的最佳方法是:將「輸入」正則化為更接近人類可能使用的風格和格式的文本分布。使用真值描述時,你可以「自由」獲得,這是由于它們實際上是從人類文本分布中提取的。此外,為了在使用合成描述時將正則化引入到自己的模型訓練中,OpenAI 選擇將合成描述與真值描述混合使用。

混合操作在數據采樣時進行,這時 OpenAI 以固定的百分比隨機選擇真值或合成描述。

  • 評估方法

在評估時,OpenAI 在相同的圖像數據集上訓練了相同的 T5-conditioned 圖像擴散模型。所有的模型均以 2048 的 batch 大小訓練了 500000 步,相當于 1B 張訓練圖像。

訓練完成后,OpenAI 使用評估數據集上的描述來為每個模型生成 50000 張圖像。接著使用 Hessel et al. (2022) 的 CLIP-S 評估指標對這些生成的圖像進行評估。他們選擇 CLIP 分數作為指標,該指標與文本圖像相似度有很強的相關性。

OpenAI 首先使用公共 CLIP ViT-B/32 圖像編碼器來生成一個圖像嵌入 z_i,然后使用文本編碼器來為圖像描述 z_t 創建一個文本嵌入,最后將 CLIP 分數計算為余弦距離 C。

接下來針對為所有 50000 個文本 / 圖像對計算的余弦距離,OpenAI 執行了平均操作,并做了 100 倍重縮放(rescale)。

在計算 CLIP 分數,選擇使用哪個描述非常重要。對于 OpenAI 的測試,他們要么使用真值描述,要么使用描述性合成描述。同時,每次評估時都注明使用了哪個描述。

  • 描述類型結果

OpenAI 首先分析了基于三類描述訓練的模型之間的性能差異,為此訓練了以下三個模型:

  1. 僅在真值描述上訓練的文本到圖像模型
  2. 在 95% 短合成描述上訓練的文本到圖像模型
  3. 在 95% 描述性合成描述上訓練的文本到圖像模型

OpenAI 進行了兩次評估,一次使用根據真值描述計算的 z_t,一次使用根據描述性合成描述計算的 z_t。這里沒有選擇短合成描述的原因是,它們與本次評估中的真值情況非常相似。

結果如下圖 4 所示,其中在合成描述上訓練的模型會得到比在真值描述上評估的基線模型好一些的 CLIP 分數性能,并且在描述性合成描述上評估時性能會明顯更好。這表明在訓練文本到圖像模型時使用合成描述沒有缺陷。

圖片

  • 描述混合比例

為了評估描述混合比例,OpenAI 使用不同混合比例的描述性合成描述,訓練了四個圖像生成模型。他們分別選擇了 65%、80%、90% 和 95% 的合成描述混合比例。他們發現,實驗進行到一半時,65% 的混合比例在所有評估中遠遠落后于其他比例,因此放棄不用。

下圖 5 中的結果表明,合成描述混合比例越高,CLIP 分數往往越高,兩者呈正比關系。

DALL-E 3

為了大規模測試合成文本,本文對 DALL-E 3 進行了訓練。訓練過程中,本文混合使用了 95% 的合成文本和 5% 的真實文本。比較模型包括 DALL-E 2 以及 Stable Diffusion XL 1.0。

在 CLIP 得分評估中,DALL-E 3 優于 DALL-E 2 和 Stable Diffusion XL;在 Drawbench 基準評估中,DALL-E 3 同樣優于 DALL-E 2 和 Stable Diffusion XL。

本文還將 DALL-E 3 生成的樣例與其他模型生成的結果進行了對比。他們通過向人類評分員展示由相同描述生成的兩張并排的圖像進行評分,評分中包括三個方面:提示跟隨(Prompt following) 、風格(Style)、連貫性( Coherence )。

  • 提示跟隨:給評分 yuan 提供完整的圖像描述內容,要求評分員選擇更符合文本描述的圖像;
  • 風格:讓評分員想象一下自己正在借助一些工具根據文本生成圖像。如果你自己正在使用此工具,請選擇你希望看到的圖像;
  • 連貫性:讓評分員選擇哪張圖像包含更連貫的對象,例如從人的身體部位、面部和姿勢、對象的位置等方面做出判斷。

結果顯示,DALL-E 3 在所有三個方面,尤其是在提示跟隨方面,DALL-E 3 生成的圖像在大多數情況下都比所有競爭對手更受人類評分者的青睞。

圖片

限制與風險

本文的最后一章是大家比較關心的關于限制與風險的問題。雖然 DALL-E 3 在 prompt 跟隨方面表現出色,但它仍然在空間感知等方面表現不佳。例如,DALL-E 3 不能很好的理解左邊、下面、后面等表示方位的詞語。

此外,在構建文本描述生成器時,本文著重考慮了一些突出的引導詞(prominent words),這些引導詞存在于原本圖像以及生成的描述中。因此,DALL-E 3 可以在出現 prompt 時生成文本。在測試過程中,本文注意到此功能并不可靠。本文懷疑這可能與使用 T5 文本編碼器有關:當模型遇到 prompt 中的文本時,它實際上會看到代表整個單詞的 token,并且將它們映射到圖像中出現的文本。在未來的工作中,本文希望進一步探索字符級語言模型,以幫助改善 DALL-E 3 面臨的這種限制。

最后,本文還觀察到,合成的文本還會讓生成的圖片在重要細節上產生幻覺。這對下游任務產生了一定的影響,本文也表示,DALL-E 3 在為特定術語生成圖像方面并不可靠。不過,該研究相信,對圖像文本描述的完善能進一步改進 DALL-E 3 的生成結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-20 08:26:50

2015-07-27 10:24:01

蘋果中國

2020-12-04 10:11:26

Unsafejava并發包

2024-02-04 12:04:37

OpenAI微軟漏洞

2023-09-21 07:54:22

人工智能DALL-E 3

2023-07-10 15:22:29

OpenAIGPT-3.5

2024-08-19 09:30:00

OpenAIAI

2023-09-21 09:49:09

人臉識別? ChatGPT圖像

2023-08-02 16:09:16

2025-02-10 08:20:00

OpenAISoraDALL-E 4

2013-11-27 15:48:56

移動中間件廠商

2018-06-03 08:49:21

2023-09-21 10:31:06

人工智能模型

2023-10-09 12:44:19

2024-04-03 13:33:43

2024-08-02 14:58:00

2022-08-31 08:54:57

AIDALL-E 2OpenAI

2016-12-16 13:07:30

云存儲運營混合云

2024-10-18 11:12:44

2013-02-25 10:11:35

4GLTE商用網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 热久久久久 | 日本粉嫩一区二区三区视频 | 二区精品| 91综合网 | 久久精品视频91 | 乱码av午夜噜噜噜噜动漫 | 日韩精品免费看 | 日韩视频一区二区 | 免费在线a视频 | 精品亚洲一区二区三区四区五区高 | 国产美女在线观看 | 亚洲狠狠 | 一级免费看片 | 人人澡人人射 | 欧美综合一区二区三区 | 精品国产一级片 | 亚洲一区二区三区免费视频 | 99亚洲国产精品 | 精品日本久久久久久久久久 | 欧美久久久久 | 亚洲一区国产精品 | 亚洲成人精 | 97中文视频 | 日韩av成人 | 伦理一区二区 | 国产专区在线 | av天天澡天天爽天天av | 国产资源在线视频 | 国产精品美女久久久久久免费 | 久干网| aaa国产大片| 成人免费视频观看视频 | 中文字幕 亚洲一区 | av中文天堂 | 国产一区免费 | 九九热在线视频免费观看 | 亚洲精品黄色 | 精品久久一区二区 | 精品国产乱码久久久久久久久 | 91极品欧美视频 | 欧美精品一区在线观看 |