成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI設計師“鹿班”核心技術(shù)公開:如何1秒設計8000張海報?

人工智能
AI 改變了圍棋,現(xiàn)在也在改變海報設計。阿里有一位名為 "鹿班" 的 AI 設計師,平均 1 秒鐘就能完成 8000 張海報設計,一天可以制作 4000 萬張,單單去年雙 11 就設計了高達 4 億張 banner 海報。究竟其背后的技術(shù)原理是什么?今天讓我們一起來細細探究。

[[228895]]

AI 改變了圍棋,現(xiàn)在也在改變海報設計。阿里有一位名為 "鹿班" 的 AI 設計師,平均 1 秒鐘就能完成 8000 張海報設計,一天可以制作 4000 萬張,單單去年雙 11 就設計了高達 4 億張 banner 海報。究竟其背后的技術(shù)原理是什么?今天讓我們一起來細細探究。

本文介紹了視覺生成的現(xiàn)狀,智能設計的框架和流程、應用案例及未來前景。通過本文的學習,可以對鹿班這個產(chǎn)品,以及視覺生成相關(guān)技術(shù)有基礎性的認識、了解行業(yè)的現(xiàn)狀以及未來的發(fā)展趨勢。

演講嘉賓簡介:星瞳,阿里巴巴機器智能技術(shù)實驗室資深算法專家,專注于視覺生成、智能醫(yī)療、圖像搜索、信息抽取等方面技術(shù)研發(fā)和落地;阿里巴巴智能設計(鹿班)的創(chuàng)始成員和算法技術(shù)負責人,醫(yī)療影像智能診斷方向負責人,圖像搜索拍立淘的早期創(chuàng)始成員。

本次分享主要分為以下幾個部分:

  • 定義、目標和愿景
  • 設計行業(yè)現(xiàn)狀
  • 使用場景
  • 技術(shù)框架和生產(chǎn)流程
  • 關(guān)鍵算法
  • 業(yè)務進展
  • 案例展示
  • 鹿班(新零售UED、淘寶技術(shù)部等共創(chuàng)的典型案例)
  • 前景展望

一、定義、目標和愿景

視覺生成的定義:可控視覺內(nèi)容設計和生成,聚焦?jié)M足用戶、場景需求的數(shù)字視覺內(nèi)容制造,包括針對圖像、視頻及圖形的增強、編輯、渲染、生成、評估等視覺內(nèi)容設計與制作。用技術(shù)賦能和改革設計、廣告及數(shù)娛行業(yè)。

目標:可控視覺內(nèi)容設計和生成,讓AI做設計,使數(shù)字內(nèi)容制造變得高質(zhì)、高效、普惠、低成本;

愿景:所想,即所見。

視覺生成主要分成三個方向。***,針對非結(jié)構(gòu)化的圖像。第二,針對結(jié)構(gòu)化的圖形。第三,針對序列化的視頻。

二、設計行業(yè)現(xiàn)狀

視覺生成較年輕,起初,基本都是通過人工方式完成。小到海報或畢業(yè)設計封面的設計這樣的小需求,大到阿里巴巴中海量商家的投放渠道及效果這樣的大型需求都與其相關(guān)。從業(yè)人員數(shù)量龐大,市場與廣告、商家關(guān)系緊密,市場容量非常大。

從技術(shù)上說,近幾年,大家常提到供給側(cè)改革,以前的供給側(cè)基本都是通過人或工具來形成圖像、視頻等,但這樣有很大的局限性,包括:

效率低成本高

數(shù)據(jù)利用率低,比如去年雙十一和今年雙十一由于主題不同,需要全盤重做。

無法在線化,從提出需求到得到結(jié)果無法做到實時。

難以上下文相關(guān),設計師不會結(jié)合用戶的個性化需求,形成與上下文相關(guān)的結(jié)果。

而在消費端,對個性化、精準度、實時性有很高的需求。因此,在供給和需求之間還存在差距。在AI行業(yè)中,IN的多:識別、理解、搜索。OUT的少:生成、融合還限于學術(shù)圈,系統(tǒng)性落地工程、可商用的產(chǎn)品沒有。

因此,“The best way to predict is to create”。

三、使用場景

視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言,用戶可以輸入標簽需要的風格、色彩、構(gòu)圖等,或者輸入一個例子,或者進行一些交互的輸入。除顯式輸入之外還可以有隱式輸入,比如人群信息、場景信息、上下文信息等。總的來說,輸入可以是千變?nèi)f化的,但通過規(guī)范化之后就會減少變化,使得生成過程可控,輸出質(zhì)量可控。

對視覺生成引擎來說,它要求輸入是規(guī)范化的。但在輸入前,可以加入各種交互方式,如自然語言處理,語音識別等,將其轉(zhuǎn)化成規(guī)范化輸入。***輸出結(jié)構(gòu)化信息或可視成圖。

四、技術(shù)框架和生產(chǎn)流程

其技術(shù)框架如下圖左側(cè)。首先對視覺內(nèi)容進行結(jié)構(gòu)化理解,如分類、量化、特征化。其次通過一系列學習、決策變成滿足用戶需求的結(jié)構(gòu)化信息即數(shù)據(jù),***將數(shù)據(jù)轉(zhuǎn)化成可視的圖像或視頻。這一框架依賴于大量的現(xiàn)有數(shù)據(jù)。其核心是一個設計內(nèi)核。同時,引入效用循環(huán),利用使用后的反饋來不斷迭代和改進系統(tǒng)。

其生產(chǎn)流程分成六個步驟,如下圖右側(cè)所示。首先用戶提出需求,將需求特征化轉(zhuǎn)變成系統(tǒng)可以理解的結(jié)構(gòu)化信息。其次將信息進行規(guī)劃得到草圖。有了粗略的草圖后再將其轉(zhuǎn)變成相對更精確的圖,然后調(diào)整細節(jié),***通過數(shù)據(jù)可視化形成最終的圖。當然其中還有很多的trick,以及各部分的優(yōu)化。

五、關(guān)鍵算法

下面介紹一些關(guān)鍵算法。我們希望基于下圖最左的耐克鞋生成最右的圖。先通過規(guī)劃器得到草圖,再通過強化學習獲得相對細致的結(jié)果,再通過對抗學習及渲染算法得到圖片,再通過評估器進行評估,***形成業(yè)務閉環(huán),其中還會有一些基礎的能力,包含更強的聯(lián)合特征(非普通 CNN特征)及多維度檢索算法等。

基本上,處理的***步是將圖片中的信息結(jié)構(gòu)化,這也是與現(xiàn)有的識別理解技術(shù)結(jié)合最緊密的地方。其中的難點和重點包括,對圖像中多目標的識別、遮擋和互包含情況如何得到分割的信息等,下圖只是個簡單的示例。

有了結(jié)構(gòu)化信息之后,需要對信息進行量化。可以量化成特征或量化圖。量化過程中會包含很多信息,比如主題風格、布局配色、元素種類、量化空間等。有了這些信息后可以在主題、種類、風格、視覺特征大小位置上,量化成各種碼,用相對有限的特征來表達***的圖。

下一步是通過用戶的輸入,得到一個相對粗略的結(jié)果即草圖。目前主要使用的是深度序列學習。從圖像角度,首先選定一個點的像素顏色再選擇位置,再迭代進行操作,***形成一張圖。規(guī)劃器模擬的就是這個過程。本質(zhì)上預測過程是一棵樹,當然也可以拆成一條條路徑。為了簡化,可以分成幾步進行,比如空間序列,視覺序列。***形成量化特征模型,主要應用的是LSTM模型。它把設計的過程轉(zhuǎn)化成基于遞歸、循環(huán)的過程。

得到草圖后,利用行動器將草圖細化。如果將圖中的每個元素看作一個Agent,那么它將有若干個可選的行動空間。

假設一張圖中有20個元素,每個元素在視覺上有多種可選的行動空間,由其組合成的可選行動空間非常龐大。我們有很多trick可以解決這一問題,比如在空間上,只允許在有限范圍內(nèi)進行變動,且行動方向有序,即狀態(tài)有序,行動有限。

下一步是如何衡量結(jié)果的好壞。圖像的評估相對比較主觀,主要可以從美學和效果兩方面來評估。美學角度可以包括是否對齊、色系搭配是否合理、有無遮擋這些較低級別的判斷標準,以及較高級的,比如風格是否一致,是否切合主題。從效果上,產(chǎn)品投放后是否會在點擊率等方面實現(xiàn)提升。***將多個指標形成對應權(quán)重并形成多個DeepLR聯(lián)合模型。

但在衡量結(jié)果之前,需要形成像素級別可見的圖。這里有以下幾種構(gòu)造器分類,包括臨摹、遷移、創(chuàng)造、搭配與生成。

前面介紹了,如何通過用戶的需求形成可見的圖。后續(xù)還需要進行投放和反饋并進行優(yōu)化,形成效用外循環(huán)。這樣才能使得系統(tǒng)效用不斷得到提升,形成一個在線閉環(huán),這也是智能設計相對設計師的一大優(yōu)勢。

六、業(yè)務進展

下面是一些實際的例子。

在這個系統(tǒng)中也加入了大量的人的信息,知識圖譜。設計師在進行設計時都會存在一些共性的東西,包括在色彩、復雜度、風格、結(jié)構(gòu)上的應用,這與自然語言處理有些相似,但自然語言處理方面的知識圖譜已經(jīng)非常成熟,而設計上的還需要不斷探索打磨。

在影響力方面,鹿班作為業(yè)界首創(chuàng)的AI設計系統(tǒng),成為集團雙十一的一個AI協(xié)同典型案例,獲得了大量的報道。在其中,運用了對抗學習,該技術(shù)是MIT2018全球十大突破性技術(shù)之一。

七、案例展示

從多樣性看,生成的圖片可以是多主體、多主體、多配色和類型自適應的。

同時,也可以生成多種尺寸的圖片。

八、前景展望

上面所說的基本都是平面設計層面的。但在視頻和圖形上是另一片藍海。如果說人工做一張圖片的成本比較高,而制作視頻的成本則遠高于圖片。

下圖是目前的行業(yè)市場空間展示。

下圖是在視頻中進行廣告植入的案例。需要檢測視頻中哪個位置適合插入廣告,對位置進行優(yōu)化。

下圖是網(wǎng)球賽中將阿里巴巴的品牌logo無縫投影到賽場中。

 為了強調(diào)視頻中的一部分,可以生成整體靜止局部運動的可循環(huán)視頻。

在游戲領(lǐng)域中,現(xiàn)在的游戲場景需要大量的美工、設計師等。如果希望生成的結(jié)果能滿足多樣性,那么純靠人工進行需要大量的成本,并且由于游戲的生命周期通常較短,因此批量高效的場景制作是一個很有前景的應用。

九、結(jié)語

通過視覺生成引擎,我們希望能基于用戶的所想,使得一切皆可生成。長遠的目標就是:所想,即所見。

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2019-12-10 16:50:01

人工智能設計Philipe Sta

2011-12-06 16:07:00

網(wǎng)頁設計

2015-11-09 10:29:05

設計師前端

2013-07-09 09:31:57

設計師創(chuàng)業(yè)團隊

2021-07-28 07:53:20

C#.NET設計

2022-05-03 23:52:25

NFT虛擬幣品牌

2024-01-09 08:00:00

人工智能工具設計師

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2011-04-02 10:50:36

WebHTML 5

2012-08-13 09:35:03

設計師程序員工程師

2019-08-05 13:47:18

2011-06-07 15:38:29

2021-03-12 15:05:58

設計師交互界面創(chuàng)新

2018-07-10 15:46:57

機器翻譯語言翻譯

2019-01-18 12:45:12

2025-04-03 07:00:00

2012-08-01 09:41:43

設計設計師UI設計

2019-04-04 14:51:57

banner廣告設計分析

2012-09-24 11:17:11

2018-04-16 08:30:07

AI設計師蘇寧
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩一区在线观看视频 | 欧美成ee人免费视频 | 国产成人jvid在线播放 | 一级美国黄色片 | 欧美日韩久| 国产一区二区在线视频 | 精品久久久久久久久久久久久久 | 成人午夜免费视频 | 日本精品久久久一区二区三区 | 久久精品中文字幕 | 国产精久久久 | 久久精品国产亚洲一区二区 | 国产区精品视频 | 一区二区三区av | 亚洲有码转帖 | 一级a性色生活片久久毛片波多野 | 国产激情一区二区三区 | 中文字幕中文字幕 | 亚洲一区二区三区 | 亚洲精品在线播放 | 欧美日韩在线高清 | 一级全黄视频 | 亚洲精品久久久久久久久久吃药 | 美女视频一区 | 99热在线免费 | 国产精品一区在线观看 | 亚洲一区二区三区免费在线观看 | 天堂综合网 | 在线视频日韩 | 91久久精品国产 | 精品一区欧美 | 中文字幕在线一区二区三区 | 国产91丝袜在线播放 | 亚洲 欧美 日韩 在线 | 精品国产免费人成在线观看 | 欧美一区二区免费 | 亚洲区一区二区 | 激情六月天 | www性色| 日韩二区 | 四虎成人免费电影 |