成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

谷歌奪回AI畫語權，網友：DALL·E 2誕生一個月就過時了？

作者：夢晨魚羊 2022-05-24 14:47:55

人工智能新聞

看到這么一張照片，如果不說是AI生成的，是不是要先感嘆一句兩腳獸的擺拍技術越來越高超了？

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

在讓AI搞創作這件事上，谷歌和OpenAI正面剛起來了。

這不，震驚全網的DALL·E 2才新鮮出爐一個月，谷歌就派出名為Imagen的選手來打擂臺。

直接上圖對比，左邊是谷歌Imagen選手眼中的“貓貓絆倒人類雕像”，右邊則是DALL·E 2選手的同題創作。

你覺得哪一位選手的作品更符合題意？

而讓網友們直呼“DALL·E 2這就過時了？”的，還不只是這種正面PK的刺激。

看到這么一張照片，如果不說是AI生成的，是不是要先感嘆一句兩腳獸的擺拍技術越來越高超了？

輸入“折紙作品：一只狐貍和一只獨角獸在飄雪的森林里”，Imagen創作出的畫面則是醬嬸的：

還可以試試把文字寫得長一點。

比如《一只非?？鞓返拿仔茇埓虬绯闪嗽趶N房里做面團的廚師的高對比度畫像，他身后的墻上還有一幅畫了鮮花的畫》…（啊先讓我喘口氣）

Imagen也輕松拿下，要素齊全：

看到這，機器學習圈的網友反應是這樣的：

不是吧，這才一個月就又更新換代了？

求求別再震驚我了。

這事兒熱度一起，很快就破了圈。

吃瓜群眾們立刻就想到一塊去了。

以后可能沒圖庫網站什么事兒了。

那么這個來自谷歌的新AI，又掌握了什么獨家秘技？

具體詳情，我們一起接著往下看。

增強「理解」比優化「生成」更重要

文本到圖像生成我們之前介紹過不少，基本都是一個套路：

CLIP負責從文本特征映射到圖像特征，然后指導一個GAN或擴散模型生成圖像。

但谷歌Imagen這次有個顛覆性的改變——

使用純語言模型只負責編碼文本特征，把文本到圖像轉換的工作丟給了圖像生成模型。

語言模型部分使用的是谷歌自家的T5-XXL，訓練好后凍結住文本編碼器。

圖像生成部分則是一系列擴散模型，先生成低分辨率圖像，再逐級超采樣。

這樣做最大的好處，是純文本訓練數據要比高質量圖文對數據容易獲取的多。

T5-XXL的C4訓練集包含800GB的純文本語料，在文本理解能力上會比用有限圖文對訓練的CLIP要強。

這一點也有著實驗數據做支撐，人類評估上，T5-XXL在保真度和語義對齊方面表現都比CLIP要好。

在實驗中谷歌還發現，擴大語言模型的規模對最后效果影響更大，超過擴大圖像生成模型的影響。

看到這有網友指出，谷歌最后采用的T5-XXL參數規模還不到最新PaLM語言模型5400億參數的1%，如果用上PaLM，又會是啥樣？

除了語言模型部分的發現，谷歌通過Imagen的研究對擴算模型作出不少優化。

首先，增加無分類器引導（classifier-free guidance）的權重可以改善圖文對齊，但會損害圖像保真度。

解決的辦法是每一步采樣時使用動態閾值，能夠防止過飽和。

第二，使用高引導權重的同時在低分辨率圖像上增加噪聲，可以改善擴散模型多樣性不足的問題。

第三，對擴散模型的經典結構U-Net做了改進，新的Efficient U-Net改善了內存使用效率、收斂速度和推理時間。

對語言理解和圖像生成都做出改進之后，Imagen模型作為一個整體在評估中也取得了很好的成績。

比如在COCO基準測試上達到新SOTA，卻根本沒用COCO數據集訓練。

在COCO測試的人類評估部分也發現了Imagen的一個缺點，不擅長生成人類圖像。

具體表現是，無人類圖像在寫實度上獲得更高的人類偏好度。

同時，谷歌推出了比COCO更有挑戰性的測試基準DrawBench，包含各種刁鉆的提示詞。

實驗發現，DALL·E 2難以準確理解同時出現兩個顏色要求的情況，而Imagen就沒問題。

反常識情況，比如“馬騎著宇航員”兩者表現都不佳，只能畫出“宇航員騎著馬”。

但是Imagen對“一只熊貓在做咖啡拉花”理解更準確，只錯了一次。DALL·E 2則全都把熊貓畫進了拉花圖案里。

△大概“馬騎著宇航員”有點反常識（狗頭）

對于要求圖像中出現文字的，也是Imagen做得更好。

除了最基本的把文字寫對以外，還可以正確給文字加上煙花效果。

AI畫畫越來越出圈

說起來，AI作畫這件事，最早便源起于谷歌。

2015年，谷歌推出DeepDream，開創了AI根據文本生成圖像的先河。

△DeepDream作品

但要說相關技術真正開“卷”、出圈，標志性事件還得數2021年OpenAI的DALL·E橫空出世。

當時，吳恩達、Keras之父等一眾大佬都紛紛轉發、點贊，DALL·E甚至被稱為2021年第一個令人興奮的AI技術突破。

隨后，語言理解模型和圖像生成模型多年來的技術進展，便在“AI作畫”這件事上集中爆發，一系列CLIP+GAN、CLIP+擴散模型的研究和應用，頻頻在網絡上掀起熱潮。

從此一發不可收拾，技術更新迭代越來越快。

DALL·E 2剛發布的時候就有網友發起一個投票，問多長時間會出現新的SOTA。

當時大多數人選了幾個月或1年以上。

但現在，Imagen的出現只用了6周。

隨著AI畫畫效果越來越強大，受眾范圍也不斷擴大，突破技術圈進入大眾視野。

前一陣，就有AI畫畫應用登上蘋果App Store圖形與設計排行榜榜首。

現在最新的潮流，是各路設計師排隊申請Midjourney、Tiamat等商業化產品的內測，刷爆社交網絡。

如此出圈，也給OpenAI和谷歌這樣的大公司帶來很大壓力。

出于AI倫理、公平性等方面考慮，DALL·E 2和Imagen都沒有直接開源或開放API。

各自也都在論文里有大篇幅涉及風險、社會影響力的內容。

OpenAI選擇了內測模式，而谷歌還在做進一步研究和規范，等到確保AI不被濫用之后再擇機公開。

現在想體驗Imagen的話，有一個在線Demo演示。

可以從給定的幾個提示詞中自由組合出不同場景。

快來試試吧～

Demo地址：
https://gweb-research-imagen.appspot.com

論文地址：
https://gweb-research-imagen.appspot.com/paper.pdf

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：日本不卡免费新一二三区 | 欧美色综合一区二区三区 | 久久婷婷国产香蕉 | 五月综合激情婷婷 | 91传媒在线观看 | 成人av网站在线观看 | 男女爱爱福利视频 | 九九久久99| 日韩成人中文字幕 | 精品免费视频一区二区 | 国产欧美一区二区精品久导航 | 亚洲精品国产电影 | 伊人精品一区二区三区 | 成人免费在线观看 | 国产片侵犯亲女视频播放 | 精品一区二区不卡 | 天天综合网永久 | 国产精品一区在线观看 | www久久av | 人人性人人性碰国产 | 一级在线观看 | 久久精品亚洲 | 国产精品久久久久久久久久久久午夜片 | 最新毛片网站 | 国产成人综合亚洲欧美94在线 | 午夜精品 | 成人久草| 亚洲精品久久久蜜桃网站 | 国产三级精品视频 | 国产福利在线免费观看 | 特黄视频 | 成人在线观看免费观看 | 狠狠入ady亚洲精品经典电影 | 99在线精品视频 | 免费在线一区二区 | 亚洲精品一区二区在线观看 | 亚洲永久入口 | 国产精品一区二区免费 | 国产亚洲精品一区二区三区 | 日韩视频中文字幕 | 日韩av视屏 |