成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當 AI 邂逅繪畫藝術(shù),能迸發(fā)出怎樣的火花?

原創(chuàng) 精選
人工智能
?本文從技術(shù)興趣出發(fā),對多模態(tài)圖像生成技術(shù)與經(jīng)典工作進行介紹,最后探索如何使用多模態(tài)圖像生成進行神奇的 AI 繪畫藝術(shù)創(chuàng)作。

前言

什么是 AI?在你的腦海中可能浮現(xiàn)由一個個神經(jīng)元堆疊起來的神經(jīng)網(wǎng)絡(luò)。那什么是繪畫藝術(shù)?是達芬奇的《蒙娜麗莎的微笑》,是梵高的《星空夜》、《向日葵》,還是約翰內(nèi)斯·維米爾的《戴珍珠耳環(huán)的少女》?當 AI 遇上繪畫藝術(shù),它們之間能擦出什么樣的火花呢??

2021年初,OpenAI 團隊發(fā)布了能夠根據(jù)文本描述生成圖像的 DALL-E 模型。由于其強大的跨模態(tài)圖像生成能力,引起自然語言和視覺圈技術(shù)愛好者的強烈追捧。僅僅一年多的時間,多模態(tài)圖像生成技術(shù)如雨后春筍般開始涌現(xiàn),期間也誕生了許多利用這些技術(shù)進行 AI 藝術(shù)創(chuàng)作的應(yīng)用,比如最近火得一塌糊涂的 Disco Diffusion。如今,這些應(yīng)用正逐漸走進藝術(shù)創(chuàng)作者和普通大眾的視野,成為了很多人口中的“神筆馬良”。

?本文從技術(shù)興趣出發(fā),對多模態(tài)圖像生成技術(shù)與經(jīng)典工作進行介紹,最后探索如何使用多模態(tài)圖像生成進行神奇的 AI 繪畫藝術(shù)創(chuàng)作。圖片????筆者使用 Disco Diffusion 創(chuàng)作的 AI 繪畫藝術(shù)作品?

多模態(tài)圖像生成概念

多模態(tài)圖像生成(Multi-Modal Image Generation)旨在利用文本、音頻等模態(tài)信息作為指導(dǎo)條件,生成具有自然紋理的逼真圖像。不像傳統(tǒng)的根據(jù)噪聲生成圖像的單模態(tài)生成技術(shù),多模態(tài)圖像生成一直以來就是一件很有挑戰(zhàn)的任務(wù),要解決的問題主要包括:

(1)如何跨越“語義鴻溝”,打破各模態(tài)之間固有的隔閡?

(2)如何生成合乎邏輯的,多樣性的,且高分?辨率的圖像?近兩年,隨著 Transformer 在自然語言處理(如 GPT)、計算機視覺(如 ViT)、多模態(tài)預(yù)訓(xùn)練(如 CLIP)等領(lǐng)域的成功應(yīng)用,以及以 VAE、GAN 為代表的圖像生成技術(shù)有逐漸被后起之秀——擴散模型(Diffusion Model)趕超之勢,多模態(tài)圖像生成的發(fā)展一發(fā)不可收拾。?

多模態(tài)圖像生成技術(shù)與經(jīng)典工作

分類

按照訓(xùn)練方式采用的是 Transformer 自回歸還是擴散模型的方式,近兩年多模態(tài)圖像生成重點工作分類如下:

圖片

??

?

Transformer 自回歸

采取 Transformer 自回歸方式的做法往往將文本和圖像分別轉(zhuǎn)化成 tokens 序列,然后利用生成式的 Transformer 架構(gòu)從文本序列(和可選圖像序列)中預(yù)測圖像序列,最后使用圖像生成技術(shù)(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。以 DALL-E (OpenAI)[1] 為例:

圖片

??圖像和文本通過各自編碼器轉(zhuǎn)化成序列,拼接到一起送入到 Transformer(這里用的是 GPT3)進行自回歸序列生成。在推理階段,使用預(yù)訓(xùn)練好的 CLIP 計算文本與生成圖像的相似度,進行排序后得到最終生成圖像的輸出。與 DALL-E 類似,清華的 CogView 系列 [2, 3] 與百度的 ERNIE-ViLG [4] 同樣使用 VQ-VAE + Transformer 的架構(gòu)設(shè)計,谷歌的 Parti [5] 則將圖像編解碼器換成了 ViT-VQGAN。而微軟的 NUWA-Infinity [6] 使用自回歸方式可以做到無限視覺生成。

擴散模型

擴散模型(Diffusion Model)是一種圖像生成技術(shù),最近一年發(fā)展迅速,被喻為 GAN 的終結(jié)者。如圖所示,擴散模型分為兩階段:(1)加噪:沿著擴散的馬爾可夫鏈過程,逐漸向圖像中添加隨機噪聲;(2)去噪:學(xué)習(xí)逆擴散過程恢復(fù)圖像。常見變體有去噪擴散概率模型(DDPM)等。??

圖片

采取擴散模型方式的多模態(tài)圖像生成做法,主要是通過帶條件引導(dǎo)的擴散模型學(xué)習(xí)文本特征到圖像特征的映射,并對圖像特征進行解碼得到最終生成圖像。以 DALL-E-2(OpenAI)[7] 舉例,其雖然是 DALL-E 的續(xù)作,但是采取的技術(shù)路線與 DALL-E 截然不同,其原理更像是 GLIDE [8](有人稱 GLIDE 為 DALL-E-1.5)。DALL-E-2 的整體架構(gòu)如圖所示:??

圖片

DALL-E-2 使用 CLIP 對文本進行編碼,并使用擴散模型學(xué)習(xí)一個先驗(prior)過程,得到文本特征到圖像特征的一個映射;最后學(xué)習(xí)一個反轉(zhuǎn) CLIP 的過程,將圖像特征解碼成最終的圖像。相比于 DALL-E-2,谷歌的 Imagen [9] 則使用預(yù)訓(xùn)練好的 T5-XXL 來取代 CLIP 進行文本編碼,然后使用超分擴散模型(U-Net 架構(gòu))增大圖像尺寸,得到 1024??1024 高清的生成圖像。

小結(jié)

自回歸 Transformer 的引入與 CLIP 對比學(xué)習(xí)的方式,建立了文本和圖像之間的橋梁;同時基于帶條件引導(dǎo)的擴散模型,為生成多樣性且高分辨率的圖像奠定了基礎(chǔ)。然而,評估圖像生成質(zhì)量往往帶有主觀因素,因此在這里比較 Transformer 自回歸還是擴散模型的技術(shù)誰更勝一籌是一件困難的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練,使用會存在倫理問題以及社會偏見,因此這些模型尚未開源。但是還是有很多愛好者在嘗試使用其中的技術(shù),期間也產(chǎn)生了很多可玩的應(yīng)用。?

AI 藝術(shù)創(chuàng)作

多模態(tài)圖像生成技術(shù)的發(fā)展,為 AI 藝術(shù)創(chuàng)作提供了更多的可能。目前,被廣泛使用的 AI 創(chuàng)作應(yīng)用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀請資格),DALL-E-2(需內(nèi)測資格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 綠幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在藝術(shù)創(chuàng)作圈火爆的 Disco Diffusion 進行 AI 藝術(shù)創(chuàng)作。

Disco Diffusion 簡介

Disco Diffusion [11] 是一個在 Github 上由眾多技術(shù)愛好者共同維護的 AI 藝術(shù)創(chuàng)作應(yīng)用,目前已經(jīng)迭代了多個版本。從 Disco Diffusion 的名字不難看出,其采用的技術(shù)主要是用 CLIP 引導(dǎo)的擴散模型。Disco Diffusion 可以根據(jù)指定的文本描述(和可選底圖)來生成藝術(shù)圖像或視頻。比如輸入“花海”,模型就會隨機產(chǎn)生一張噪聲圖像,通過 Diffusion 的去噪擴散過程一步步迭代,達到一定步數(shù)后就能渲染出一張美麗的圖像。得益于擴散模型多樣化的生成方式,每次運行程序都會得到不同的圖像,這種“開盲盒”的體驗著實讓人著迷。

Disco Diffsion 存在問題

基于多模態(tài)圖像生成模型 Disco Diffusion(DD)進行 AI 創(chuàng)作目前存在以下幾個問題:

(1)生成圖像質(zhì)量參差不齊:根據(jù)生成任務(wù)的難易程度,粗略估算描述內(nèi)容較難的生成任務(wù)良品率 20%~30%,描述內(nèi)容較容易的生成任務(wù)良品率 60%~70%,大多數(shù)任務(wù)良品率在 30~40% 之間。

(2)生成速度較慢+內(nèi)存消耗較大:以迭代 250 steps 生成一張 1280*768 圖像為例,需要大約花費 6分鐘,以及使用 V100 16G 顯存。

(3)嚴重依賴專家經(jīng)驗:選取一組合適的描述詞需要經(jīng)過大量文本內(nèi)容試錯及權(quán)重設(shè)置、畫家畫風(fēng)及藝術(shù)社區(qū)的了解以及文本修飾詞的選取等;調(diào)整參數(shù)需要對 DD 包含的 CLIP 引導(dǎo)次數(shù)/飽和度/對比度/噪點/切割次數(shù)/內(nèi)外切/梯度大小/對稱/... 等概念深刻了解,同時要有一定的美術(shù)功底。眾多的參數(shù)也意味著需要較強的專家經(jīng)驗才能獲得一張還不錯的生成圖像。

技能儲備

針對上述問題,我們做了一些數(shù)據(jù)與技術(shù)儲備,同時 YY 了一些未來可能的應(yīng)用。如下圖所示:

圖片

??

  • 針對第一個問題,我們從藝術(shù)創(chuàng)作社區(qū)爬取了近 2w 張 AI 生成的藝術(shù)作品,從生成圖像的基礎(chǔ)屬性以及內(nèi)容合理性進行三分類打標:質(zhì)量好/質(zhì)量一般/質(zhì)量差,訓(xùn)練一個藝術(shù)作品質(zhì)量評估模型。該模型能自動評估 AI 生成圖像的質(zhì)量并挑選出良品率高的圖像,解決手動挑選高質(zhì)量圖像效率低的問題。
  • 針對第二個問題,我們通過減少迭代次數(shù)+生成小尺寸圖像,然后利用超分辨率算法 ESRGAN 進行高分辨率圖像重建的方式,來提高 DD 的生成效率。該方法能達到與 DD 正常迭代生成的圖像效果,生成效率與顯存優(yōu)化至少提升了一倍。
  • 針對第三個問題,我們沉淀了一套底圖預(yù)處理邏輯,包括色溫色調(diào)調(diào)整/前背景調(diào)色/添加噪點等,能快速應(yīng)用不同底圖生成任務(wù);同時,我們也積累了海量的文本提示詞,進行了大量的 DD 調(diào)參試錯,依賴專家經(jīng)驗生成個性化、多樣化的高質(zhì)量圖像。

?利用這些數(shù)據(jù)與技術(shù)儲備,我們已經(jīng)積累了手機/電腦壁紙、藝術(shù)姓/名、地標城市風(fēng)格化、數(shù)字藏品等多模態(tài)圖像生成應(yīng)用方式。下面我們將展示具體的 AI 生成藝術(shù)作品。

AI 藝術(shù)作品

城市地標建筑風(fēng)格化

通過輸入文本描述與地標城市底圖,生成不同風(fēng)格的畫作(動漫風(fēng)格 / 賽博朋克風(fēng)格 / 像素畫風(fēng)格):

(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.

(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.

(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.

圖片

圖片

????數(shù)字藏品

通過輸入文本描述與底圖,在底圖上進行創(chuàng)作。

  • 螞蟻 Logo 系列(螞蟻森林 / 螞蟻小屋 / 螞蟻飛船):

(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.

(3) A spacecraft by RAHDS and beeple, Trending on artstation.

圖片

  • 螞蟻小雞系列(小雞之變形金剛 / 小雞之海綿寶寶):

(1) Transformers with machine armor, by Alex Milne, Trending on artstation.

(2) Spongebob by RAHDS and beeple, Trending on artstation.

圖片

手機/電腦壁紙

  • 通過輸入文本描述,生成手機壁紙:

(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.

(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.

(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.??

圖片

(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.

圖片

  • ??通過輸入文本描述,生成電腦壁紙:

(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.

(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.

(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.

(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.??

圖片

AI 藝術(shù)姓

  • 通過輸入文本描述與姓氏底圖,生成不同風(fēng)格的藝術(shù)姓:

(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.

(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.

(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.

(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.

圖片

其他 AI 藝術(shù)創(chuàng)作應(yīng)用

Stable Diffusion [10, 12] 展現(xiàn)了比 Disco Diffusion [11] 更加高效且穩(wěn)定的創(chuàng)作能力,尤其是在“物”的刻畫上更加突出。下圖是筆者利用 Stable Diffusion,根據(jù)文本創(chuàng)作的 AI 繪畫作品:??

圖片

?總結(jié)展望

本文主要介紹了近兩年來多模態(tài)圖像生成技術(shù)及相關(guān)的進展工作,并嘗試使用多模態(tài)圖像生成進行多種 AI 藝術(shù)創(chuàng)作。接下來,我們還將探索多模態(tài)圖像生成技術(shù)在消費級 CPU 上運行的可能性,以及結(jié)合業(yè)務(wù)為 AI 智能創(chuàng)作賦能,并嘗試更多如電影、動漫主題封面,游戲,元宇宙內(nèi)容創(chuàng)作等更多相關(guān)應(yīng)用。

?使用多模態(tài)圖像生成技術(shù)進行藝術(shù)創(chuàng)作只是 AI 自主生產(chǎn)內(nèi)容(AIGC,AI generated content)的一種應(yīng)用方式。得益于當前海量數(shù)據(jù)與預(yù)訓(xùn)練大模型的發(fā)展,AIGC 能夠加速落地,為人類提供更多優(yōu)質(zhì)內(nèi)容。或許,通用人工智能又邁進了一小步??如果你對本文涉及到的技術(shù)或者應(yīng)用感興趣,歡迎共創(chuàng)交流。?

參考文獻

[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.

[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.

[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.

[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.

[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.

[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.

[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.

[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

[11] Github: https://github.com/alembics/disco-diffusion?

[12] Github: https://github.com/CompVis/stable-diffusion?

責(zé)任編輯:武曉燕 來源: 阿里開發(fā)者
相關(guān)推薦

2020-02-11 17:39:16

人工智能香水制造

2018-11-15 19:30:08

人工智能教育機器智能

2018-04-04 12:34:44

云計算區(qū)塊鏈融合

2021-07-08 00:01:45

Vue2CompositionAPI

2018-06-27 18:50:02

區(qū)塊鏈數(shù)字貨幣比特幣

2020-08-17 17:16:21

5G網(wǎng)絡(luò)技術(shù)

2011-11-07 09:43:08

郭為云計算C時代

2019-11-06 15:05:56

智慧城市區(qū)塊鏈數(shù)據(jù)

2022-08-29 20:13:28

物聯(lián)網(wǎng)IPV6

2018-11-07 09:51:48

2015-06-04 14:48:09

CIO時代網(wǎng)

2024-03-26 11:12:46

2023-09-27 08:47:19

北明軟件

2010-07-07 11:52:56

云計算

2018-07-19 09:05:17

英特爾

2019-04-26 14:31:27

物聯(lián)網(wǎng)電子商務(wù)IOT
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久久久久久综合 | 久久久久精 | 免费三级黄 | 美女二区| 欧美日韩精品一区二区三区视频 | 91精品国产91久久综合桃花 | 久久久精品一区 | 亚洲精品在线观看网站 | 日韩高清在线 | 日韩电影免费在线观看中文字幕 | 成人av一区二区在线观看 | 亚洲精品中文字幕中文字幕 | 国产在线精品一区二区三区 | 国产一区二区三区在线 | 欧美亚州综合 | 久久国产区| 久久精品黄色 | 国产精品二区三区在线观看 | 国外成人在线视频 | 亚洲美女视频 | 久久久婷 | 美女视频一区 | 日韩毛片在线免费观看 | 亚洲啊v| 99久久久无码国产精品 | 日日日干干干 | av网站在线免费观看 | 热久久999 | 自拍视频网 | 日韩中文字幕 | 国产精品综合色区在线观看 | 99精品一区二区三区 | 羞羞视频一区二区 | 欧美一区二区三区在线观看 | 国产美女精品 | av第一页| 欧美日韩中 | 欧美久久久久久久 | 久久精品视频播放 | 日韩中文在线观看 | 五十女人一级毛片 |