AI可以繪制情感嗎?看DALL-E如何表抽象
要說(shuō)2022年人工智能領(lǐng)域發(fā)展有怎樣的趨勢(shì)?
一定要提到「多模態(tài)AI」的崛起,尤其是文本到圖像生成工具。
從DALL-E到Imagen、Parti、女媧等,都可以生成高質(zhì)量的圖像,讓人驚艷。
這當(dāng)中最典型的例子便是OpenAI的Dall-E2了。
自Dall-E面世后,或許你見過(guò)它生成很多繪畫風(fēng)格的圖片,比如宇航員在太空騎馬。
然而,很少有通過(guò)Dall-E表現(xiàn)抽象概念的圖片。
這不,一名機(jī)器學(xué)習(xí)科學(xué)家Gabriele Sgroi就來(lái)探索了DALL-E如何完成這項(xiàng)任務(wù)。
他測(cè)試了油畫棒和繪畫風(fēng)格的悲傷,愛,憤怒,幸福,正義和非正義等主題。
油畫棒風(fēng)格
悲傷
憤怒
幸福
愛
繪畫風(fēng)格
悲傷
愛
憤怒
幸福
還有其他抽象概念的畫作欣賞:正義與非正義
正義
非正義
Gabriele Sgroi相信繪畫會(huì)更有洞察力,而不是將情感圖像限制在人們的面部表情上。
本文中的所有圖像(包括封面圖像)都是使用 DALL-E 從給定提示中選擇第一代提供的所有圖像生成的。
從這些例子中可以看出,盡管并不總是可以清楚地識(shí)別出給定的情緒,但是DALL-E在繪畫風(fēng)格總體上展現(xiàn)出更抽象和復(fù)雜的圖片。
其中,代表正義的圖片大多描繪出一個(gè)希臘女神,但是代表非正義的圖像確實(shí)讓人琢磨不透。
總的來(lái)說(shuō),Sgroi觀察到結(jié)果很大程度上取決于所選擇的風(fēng)格。
并且在大多數(shù)情況下,DALL-E會(huì)在生成的圖紙上寫下情感的名稱。
總之,DALL-E 似乎對(duì)測(cè)試的情緒表現(xiàn)出一定程度的理解,將它們與面部表情以及通常與之相關(guān)的顏色或符號(hào)正確配對(duì)。
Sgroi表示,進(jìn)一步研究不同風(fēng)格之間相同情緒表征的差異,并檢查觀察到的正面和負(fù)面情緒之間的偏差是否在其他示例中仍然存在,這將是很有趣的。
DALL-E失敗了嗎?
諷刺的是,DALL-E 2宣稱是擅長(zhǎng)理解用于生成圖像的文本提示。
但是有網(wǎng)友發(fā)現(xiàn),當(dāng)前無(wú)法理解文本時(shí),便會(huì)將文字內(nèi)容放置在生成的圖片中。
如藝術(shù)家雷內(nèi)·馬格利特的一幅畫《這不是一支煙斗》。
還有一位人工智能Janelle Shane讓DALL-E 2生成公司徽標(biāo),卻發(fā)現(xiàn)沒有一張圖能正確拼出單詞。
Waffle House生成示例
另外,你可以說(shuō) DALL-E 2了解一些科學(xué)定律。
因?yàn)樗梢暂p松描繪出墜落的物體,或者漂浮在太空中的宇航員。
但是,如果想要生成解剖圖、X 射線圖像、數(shù)學(xué)證明或藍(lán)圖,所得到的圖像可能表面上是正確的,但根本上都是錯(cuò)誤的。
就比如,按比例繪制太陽(yáng)系的圖片中,可以說(shuō)是一塌糊涂,左下角地球形狀,還有左上角類似荷包蛋的物體。
OpenAI研究員Aditya Ramesh解釋道,它試圖在不理解含義的情況下編造一些視覺上相似的東西。
所以DALL-E 2并不知道什么是科學(xué),它只知道如何閱讀文本并繪制插圖。
還有讓DALL-E 2生成人物面孔時(shí),逼真到簡(jiǎn)直讓人不敢相信。
在訓(xùn)練期間,OpenAI引入了deepfake保護(hù)措施,就是為了防止其記住經(jīng)常出現(xiàn)在互聯(lián)網(wǎng)上面孔。
如果上傳的圖像包含了真實(shí)的人物面孔,即使是不知名的人,系統(tǒng)便會(huì)拒絕生成內(nèi)容。
但是,另一個(gè)問(wèn)題便出現(xiàn)了,OpenAI表示,該系統(tǒng)針對(duì)具有單一關(guān)注焦點(diǎn)的圖像進(jìn)行了優(yōu)化
就比如生成「一名宇航員凝視著地球,臉上帶著渴望的表情」這種細(xì)致入微肖像生成還是非常成功的。
然而,讓DALL-E一次生成多個(gè)人的圖像時(shí),直接崩潰了。因此它在生成集體照和人群場(chǎng)景中就會(huì)變得非常糟糕。
此外,DALL-E還會(huì)生成一些偏見的圖像。
目前,OpenAI 的團(tuán)隊(duì)已經(jīng)開始通過(guò)機(jī)器學(xué)習(xí)來(lái)糾正偏見。
例如,在 DALL-E 2 的訓(xùn)練期間,研究人員調(diào)整了訓(xùn)練方法并增加了女性圖像的權(quán)重,因此它們更有可能被生成。
DALL-E未來(lái)會(huì)帶來(lái)更多驚喜。