成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DALL·E 3關鍵技術公開!19頁論文揭秘如何對提示詞“唯命是從”

人工智能 新聞
無論是整體的環(huán)境描寫,還是精確到物體數量、著裝、顏色這種細節(jié)敘述,DALL·E 3都能很好地理解,并生成對應的畫作,絲毫不漏重點。

出場即炸場的DALL·E 3,又有新動向了!

這次直接宣布對ChatGPT Plus企業(yè)版用戶開放,還連帶公開了更多“官方推薦案例”。

圖片

不僅如此,OpenAI還一紙論文透露了DALL·E 3的關鍵技術細節(jié)

相比其他AI,DALL·E 3表現最優(yōu)秀的地方,應該就要屬對提示詞的完美遵循了。

無論是整體的環(huán)境描寫,還是精確到物體數量、著裝、顏色這種細節(jié)敘述,DALL·E 3都能很好地理解,并生成對應的畫作,絲毫不漏重點。

圖片

論文一公開,可以說是解決了“如何讓DALL·E 3遵循指令”這一讓諸多人困惑的問題,有網友感嘆:

OpenAI終于又Open了?

圖片

一起來看看這篇DALL·E 3論文的關鍵細節(jié),以及它的更多用例。

用數據集讓DALL·E 3“唯命是從”

先來看看DALL·E 3論文最大的亮點:提示詞遵循(prompt following)。

此前,不少繪畫AI會刻意忽略提示詞中的某些關鍵詞、或是混淆提示詞的含義(多義詞如column,列還是柱子),簡單來說就是文本提示詞和畫面細節(jié)沒對齊。

OpenAI的研究人員在經過一番分析后認為,這是數據集的鍋。

現有的圖像文本對數據集,文字對圖像的描述可以說是“惜字如金”。

尤其是從互聯網上扒下來的數據集,大多數對圖像的描述只有一句話,更別提細節(jié)了。包括環(huán)境、物體在內,容易忽略的文本描述主要有4類

  • 場景中物體描述,如廚房里的水槽、人行道上的停車標志等;
  • 物體位置和數量描述
  • 物體顏色和大小描述
  • 圖像中的文本描述(如呈現在商店招牌上的字母/漢字)

除此之外,還有不少互聯網上扒下來圖像的文本描述,直接就是錯誤或不相關的,例如梗圖或Alt文本(圖像加載失敗時網頁上呈現的文字描述)。

為此,有必要將這些圖像對應的文本數據重新整理一遍,更準確地描述圖像中的場景和物品進行描述。

光靠人力是不太可能的,畢竟要生成的“廢話文學”太多了。

和RLHF一樣,OpenAI同樣將這個過程“自動化”了一波,讓AI來完成這件事。

他們訓練了一個“圖像字幕器”(image captioner),專門用來給數據集中的圖像重新生成文本描述。

這是“圖像字幕器”給數據集中的部分圖片生成文本描述的效果:

圖片

這下子描述就詳細多了。

那么,用AI來合成文本,實際訓練出來的模型是否真能提升生成效果?

研究人員用開源模型(如CLIP)測試了一波,得出的結論是可以。

圖片

不過也不能完全使用合成的文本描述,畢竟AI生成的內容可能有些“神秘共性”,直接全盤接受容易導致圖像過擬合

因此,OpenAI還在CLIP上嘗試了一波合成文本描述-圖像數據集的效果。

他們發(fā)現,數據集中混雜95%的合成文本-圖像數據時,CLIP的效果是最好的。

圖片

最終,他們決定95%的圖像用合成文本描述,剩下的5%圖像依舊使用人工描述,用這個比例的文本-圖像數據集重新訓練了DALL·E 3,取得了不錯的效果。

最后,OpenAI也采用人工評估的方法,對DALL·E 3和其他模型進行了測試。

評估方法大致像這樣,詢問人類哪個圖像能更好地遵循提示詞、或生成更好看的圖像。

圖片
圖片

結果顯示,DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2,在提示詞遵循、風格匹配等任務測試上均取得了不錯的效果。

圖片

已向企業(yè)版和Plus用戶開放

除了這篇論文以外,OpenAI這次還公布了DALL·E 3的另一動向——向ChatGPT Plus企業(yè)版開放。

在宣布這一消息的同時,OpenAI也給出了企業(yè)和機構使用DALL·E 3的建議,例如做科學項目:

圖片

搞網站設計:

圖片

或是幫企業(yè)設計LOGO:

圖片

當然,無論是ChatGPT Plus還是企業(yè)版,仍然也屬于收費項目。

目前唯一可以免費玩到DALL·E 3的地方,應該還是微軟的New Bing。

圖片

對于OpenAI帶來的DALL·E 3新消息,不少網友感覺振奮。

有網友表示,DALL·E 3的出現真正給設計圈帶來了改變,例如設計飲料包裝等:

圖片

還有網友已經在催API的到來了:

圖片

但也有網友對這次更新不甚滿意,尤其是對DALL·E 3論文涉及的技術信息表示了嘲諷:

直接用谷歌的T5文本編碼器和卷積解碼器,這就是公司發(fā)展太快的結果嗎?

圖片

這里是網友提到的DALL·E 3論文細節(jié):

圖片

要是對DALL·E 3的更多技術細節(jié)感興趣,也可以到論文中找找答案~

論文地址:https://cdn.openai.com/papers/dall-e-3.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-09 12:44:19

2023-10-04 18:30:52

MetaAI

2010-09-01 16:35:22

TDMOIPWLAN

2023-09-20 20:11:07

Java

2025-02-17 09:00:00

DeepSeek人工智能AI

2016-04-21 10:20:27

5GSDN

2018-01-03 00:38:20

大數據Hadoop分布式文件系統

2015-09-11 13:54:51

大數據關鍵技術

2011-03-21 15:29:46

2015-11-15 17:22:25

微軟硬件創(chuàng)新

2022-04-15 15:03:42

云計算容器Linux

2021-05-17 14:57:22

NFV虛擬化數據

2025-05-29 10:32:32

2023-10-08 13:10:24

2016-10-28 13:12:41

2024-09-09 13:55:35

2024-04-03 13:33:43

2019-01-09 13:20:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人久久综合 | 国产在线二区 | 久久久蜜桃一区二区人 | 国产欧美精品一区二区色综合朱莉 | 久久久久99 | 国产日韩免费观看 | 午夜丰满少妇一级毛片 | 在线视频 亚洲 | 国产综合精品一区二区三区 | 91精品国产美女在线观看 | 久久精品国产免费 | 日韩av免费在线电影 | 国产精品91久久久久久 | 日韩欧美电影在线 | 欧洲国产精品视频 | 欧美全黄 | 美女久久视频 | 国产精品激情 | 国产精品亚洲视频 | 久久99视频精品 | 中文字幕视频在线看 | 国产精品一区二区久久 | 99久热在线精品视频观看 | 这里只有精品99re | 亚洲aⅴ | 欧美www在线 | 91色在线| 午夜精品一区二区三区三上悠亚 | 亚洲日日夜夜 | 国产激情视频在线 | av在线视| 波多野结衣先锋影音 | 亚洲欧美日韩在线不卡 | 午夜www| 国产色 | 久久久久国产精品午夜一区 | re久久 | 国产黄色大片在线观看 | 午夜精品| 成年人的视频免费观看 | 亚洲国产乱码 |