成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型

人工智能 新聞
這是來自密歇根大學的一項“視覺字謎”新研究,論文一發出就在Hacker News上爆火,熱度飆至近800。

AI畫的瑪麗蓮·夢露,倒轉180°后,竟然變成了愛因斯坦?!

圖片

這是最近在社交媒體上爆火的擴散模型視錯覺畫,隨便給AI兩組不同的提示詞,它都能給你畫出來!

哪怕是截然不同的對象也可以,例如一位男子,經過反色處理,就神奇地轉變成一名女子:

圖片

就連單詞也能被翻轉出新效果,happy和holiday只在一旋轉間:

圖片

原來,這是來自密歇根大學的一項“視覺字謎”新研究,論文一發出就在Hacker News上爆火,熱度飆至近800。

圖片

英偉達高級AI科學家Jim Fan贊嘆稱:

這是我近期見到最酷的擴散模型!

圖片

還有網友感嘆稱:

這讓我想到了從事分形壓縮工作的那段經歷。我一直認為它是純粹的藝術。

圖片

要知道,創作一幅經過旋轉、反色或變形后呈現出新主題的繪畫作品,怎么也需要畫家對色彩、形狀、空間具備一定的理解能力。

如今連AI也能畫出這樣的效果,究竟是如何實現的?實際效果是否有這么好?

我們上手試玩了一番,也探究了一下背后的原理。

Colab就能直接試玩

我們用這個模型繪制了一組Lowpoly風格的畫,讓它正著看是一座山,反過來則是城市的天際線。

圖片

同時,我們讓ChatGPT(DALL·E-3)也試著畫了一下,結果除了清晰度高一些之外似乎就沒什么優勢了。

圖片

而作者自己展示的效果則更加豐富,也更為精彩。

一座雪后的山峰,旋轉90度就變成了一匹馬;一張餐桌換個角度就成了瀑布……

圖片

最精彩的還要屬下面這張圖——從上下左右四個角度看,每個方向的內容都不一樣。

(這里先考驗一下各位讀者,你能看出這四種動物分別是什么嗎?)

圖片

以兔子為初始狀態,每逆時針旋轉90度,看到的依次是鳥、長頸鹿和泰迪熊。

圖片

而下面這兩張圖雖然沒做到四個方向每個都有“新內容”,但還是做出了三個不同的方向。

圖片

除了旋轉,它還可以把圖像切割成拼圖,然后重組成新的內容,甚至是直接分解到像素級。

圖片

風格也是千變萬化,水彩、油畫、水墨、線稿……應有盡有。

圖片

那么這個模型去哪里能玩呢?

為了能讓更多網友體驗到這個新玩具,作者準備了一份Colab筆記。

不過免費版Colab的T4不太能帶動,V100偶爾也會顯存超限,要用A100才能穩定運行。

圖片

甚至作者自己也說,如果誰發現免費版能帶動了,請馬上告訴他。

圖片

言歸正傳,第一行代碼運行后會讓我們填寫Hugging Face的令牌,并給出了獲取地址。

同時還需要到DeepFloyd的項目頁面中同意一個用戶協議,才能繼續后面的步驟。

圖片

準備工作完成后,依次運行這三個部分的代碼完成環境部署。

圖片

需要注意的是,作者目前還沒有給模型設計圖形界面,效果的選擇和提示詞的修改需要我們手動調整代碼。

作者在筆記中放了三種效果,想用哪個就取消注釋(去掉那一行前面的井號),并把不用的刪除或注釋掉(加上井號)。

圖片

這里列出的三種效果不是全部,如果想用其他效果可以手動替換代碼,具體支持的效果有這些:

圖片

修改好后要運行這行代碼,然后提示詞也是如法炮制:

圖片

修改好并運行后,就可以進入生成環節了,這里也可以對推理步數和指導強度進行修改。

需要注意的是,這里一定要先運行image_64函數生成小圖,然后再用后面的image變成大圖,否則會報錯。

圖片

做個總結的話,我們體驗后的一個感覺是,這個模型對提示詞的要求還是比較高的。

作者也意識到了這一點,并給出了一些提示詞技巧:

圖片

△機翻,僅供參考

那么,研究團隊是如何實現這些效果的呢?

“糅合”多視角圖像噪聲

首先來看看作者生成視錯覺圖像的關鍵原理。

為了讓圖像在不同視角下,能根據不同的提示詞呈現出不同的畫面效果,作者特意采用了“噪聲平均”的方法,來進一步將兩個視角的圖像糅合在一起。

簡單來說,擴散模型(DDPM)的核心,是通過訓練模型將圖像“打碎重組”,基于“噪點圖”來生成新圖像:

圖片

所以,要想讓圖像在變換前后,能根據不同提示詞生成不同圖像,就需要對擴散模型的去噪過程進行改動。

簡單來說,就是對原始圖像和變換后的圖像,同時用擴散模型進行“打碎”處理做成“噪點圖”,并在這個過程中將處理后的結果取平均,計算出一個新的“噪點圖”。

圖片

隨后,基于這個新的“噪點圖”生成的圖像,就能在經過變換后呈現出想要的視覺效果。

當然,這個變換的圖像處理過程,必須要是正交變換,也就是我們在展示效果中看到的旋轉、變形、打碎重組或反色等操作。

具體到擴散模型的選擇上,也有要求。

具體來說,這篇論文采用了DeepFloyd IF來實現視錯覺圖像生成。

DeepFloyd IF是一個基于像素的擴散模型,相比其他擴散模型,它能直接在像素空間(而非潛在空間或其他中間表示)上進行操作。

這也讓它能更好地處理圖像的局部信息,尤其在生成低分辨率圖像上有所幫助。

這樣一來,就能讓圖像最終呈現出視錯覺效果。

為了評估這種方法的效果,作者們基于GPT-3.5自己編寫了一個50個圖像變換對的數據集。

具體來說,他們讓GPT-3.5隨機生成一種圖像風格(例如油畫風、街頭藝術風),然后再隨機生成兩組提示詞(一個老人、一個雪山),并交給模型生成變換畫。

這是一些隨機變換生成的結果:

圖片

隨后,他們也拿CIFAR-10進行了一下不同模型間圖像生成的測試:

圖片

隨后用CLIP評估了一下,結果顯示變換后的效果和變換之前的質量一樣好:

圖片

作者們也測試了一下,這個AI能經得起多少個圖像塊的“打碎重組”。

事實證明,從8×8到64×64,打碎重組的圖像效果看起來都不錯:

圖片

對于這一系列圖像變換,有網友感嘆“印象深刻”,尤其是男人轉變成女人的那個圖像變換:

我看了大概有10遍左右。

圖片

還有網友已經想把它做成藝術作品掛在墻上了,或是使用電子墨水屏:

圖片

但也有專業的攝影師認為,現階段AI生成的這些圖像仍然不行:

仔細觀察的話,會發現細節經不起推敲。敏銳的眼睛總是能分辨出糟糕的地方,但大眾并不在意這些。

圖片

那么,你覺得AI生成的這一系列視錯覺圖像效果如何?還能用在哪些地方?

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-23 09:34:16

科學家AI

2023-12-18 15:54:42

AI 模型

2023-11-26 17:54:00

AI科學

2025-01-23 00:00:01

2022-08-24 10:57:38

深度學習人工智能

2024-01-24 12:49:58

模型英偉達

2018-06-28 09:07:58

2024-12-25 12:04:34

2024-09-11 15:00:00

2020-04-10 11:58:56

AI咨詢數據科學

2023-07-26 14:00:47

模型研究

2017-10-15 10:08:13

AI

2017-08-04 15:53:10

大數據真偽數據科學家

2012-12-06 15:36:55

CIO

2025-04-10 09:26:56

2023-05-04 12:35:39

AI科學

2023-09-09 13:03:17

AI智能

2025-05-12 09:02:00

2023-03-17 08:00:00

人工智能工具數據科學家
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 羞羞的视频免费在线观看 | 亚洲一区二区三区免费观看 | h片在线看| 99精品久久久久久久 | 久久国产欧美日韩精品 | 免费网站国产 | 国产一区 | 国产亚洲精品a | 亚洲综合色视频在线观看 | 一区二区三区高清在线观看 | 国产高清一区二区三区 | 91社区在线观看播放 | 欧美一区二区精品 | 伊人手机在线视频 | 亚洲欧美在线视频 | 欧美国产日韩精品 | 野狼在线社区2017入口 | 日韩在线播放一区 | 狠狠操狠狠干 | 日韩国产黄色片 | 在线观看电影av | 亚洲国产一区二区三区 | 日韩欧美日韩在线 | 成人影视网| 欧美久久一级 | 男女国产网站 | 久久精品视频网站 | 国产久 | 北条麻妃国产九九九精品小说 | 日韩一区二 | 99re视频在线观看 | 亚洲视频在线观看免费 | 成人精品在线视频 | www.久久| 日本大片在线播放 | 91在线视频免费观看 | 久久国产精品99久久久大便 | 91亚洲精选| 亚洲精品九九 | 国产一级片免费视频 | 色橹橹欧美在线观看视频高清 |