成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

每秒最高1w+使用量,「AI繪畫」成抖音年度爆款,背后技術秘籍現(xiàn)已公開

人工智能 新聞
作為抖音SSS級的大爆款特效,「AI繪畫」的峰值QPS(每秒請求量)也高達1.4w的驚人水平,如何保證用戶的實時體驗,對技術鏈路提出了極高的挑戰(zhàn),抖音又是怎樣做到的呢?

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

「AI繪畫」是2022年抖音上最火的一款特效玩法,用戶只要輸入一張圖片,AI就會根據(jù)圖片生成一張動漫風格的圖片。

由于生成的圖片效果帶有一定的“盲盒”屬性 ,畫風精致唯美中又帶著些許的蠢萌和無厘頭,一經(jīng)上線就激發(fā)了廣大用戶的參與熱情,抖音單日投稿量最高達724w,還衍生了“如何馴服AI”、“誰來為我發(fā)聲”等討論分享。

圖片

據(jù)抖音「AI繪畫」特效主頁顯示,已經(jīng)有2758.3萬用戶使用過這款特效。

作為抖音SSS級的大爆款特效,「AI繪畫」的峰值QPS(每秒請求量)也高達1.4w的驚人水平,如何保證用戶的實時體驗,對技術鏈路提出了極高的挑戰(zhàn),抖音又是怎樣做到的呢?

帶著這樣的疑問,我們和「AI繪畫」背后的項目團隊——抖音特效、字節(jié)跳動智能創(chuàng)作團隊聊了聊。

經(jīng)過特別訓練的動漫風模型

抖音特效對AI技術有過很多應用實踐,2021年的「漫畫臉」特效也是一款上線3天千萬投稿的爆款,使用的是GAN技術。

這一次,抖音的「AI繪畫」使用了時下最火的多模態(tài)生成技術。

這是由文本生成圖片/視頻/3D等跨模態(tài)的生成技術,具體地說,是通過大規(guī)模數(shù)據(jù)的訓練,僅通過文字或少量其他低成本的信息引導,可控地生成任意場景的圖片/視頻/3D等內(nèi)容,在AIGC等方向有極大的潛在應用價值。

據(jù)了解,隨著DALL·E的問世,2021年初字節(jié)跳動智能創(chuàng)作團隊就開始了相關技術的跟進和規(guī)劃,今年8月底Stable Diffusion發(fā)布后,抖音特效團隊很快啟動了「AI繪畫」這個項目。

Stable Diffusion是一個文本生成圖像的多模態(tài)生成模型,相比于GAN,Stable Diffusion的多樣性和風格化會更強,變化的形式也更豐富,同一個模型可以做很多不同的風格。同時,后者對性能和計算資源要求大幅下降,其自身開源的屬性,還可以進行各種fine tune,調(diào)用和修改。

圖片

△基礎模型架構

Stable Diffusion的邏輯是,用一個圖像對應一個文本標注的形式去訓練模型,一個“文本+圖像”組成一個數(shù)據(jù)對,先對其中的圖像通過高斯分布進行加噪,加完噪聲之后,再訓練一個網(wǎng)絡去對它進行去噪,讓模型可以根據(jù)噪聲再還原出一個新的圖像。

為了能夠使用文字控制模型生成的內(nèi)容,Stable Diffusion使用了預訓練的CLIP模型來引導生成結果。

CLIP模型使用了大量的文字和圖片對訓練,能夠衡量任意圖片和文本之間的相關性。在前向生成圖片的過程中,模型除了要去噪以外,還需要讓圖片在CLIP的文本特征引導下去生成。這樣在不斷生成過程中,輸出結果就會越來越接近給定的文字描述。

抖音「AI繪畫」是采用圖片生成圖片的策略,首先對圖片進行加噪,然后再用訓練好的文生圖模型在文本的引導下去噪。

圖片

△圖片生成圖片的邏輯過程

作為技術支持方,字節(jié)跳動智能創(chuàng)作團隊在Stable Diffusion開源模型的基礎上,構建了數(shù)據(jù)量達十億規(guī)模的數(shù)據(jù)集,訓練出兩個模型,一個是通用型的模型Diffusion Model,可以生成如油畫、水墨畫風格的圖片;另外一個是動漫風格的Diffusion Model模型。

圖片

△通用模型Diffusion Model生成的圖像風格

圖片

△動漫風格的Diffusion Model模型生成的圖像風格

漫畫風格模型是采用“漫畫圖像+文本”的數(shù)據(jù)對進行訓練。為了讓動漫風格模型生成的效果更好更豐富,字節(jié)跳動智能創(chuàng)作團隊在動漫風格模型優(yōu)化訓練的數(shù)據(jù)集里特別加入了賽博朋克和像素風等不同風格的數(shù)據(jù)。

抖音特效在動漫風格上有過比較豐富的探索,觀測了此前用戶對不同風格的反饋,抖音「AI繪畫」此次選用的就是精致漫畫風的動漫風格。

在算法側調(diào)優(yōu)的同時,字節(jié)跳動智能創(chuàng)作團隊為抖音特效產(chǎn)品側提供了文本的接口prompt,方便產(chǎn)品側對效果進行進一步的微調(diào),通過輸入文字,讓生成的圖片效果更加貼近于期望中的樣子——風格化程度“不會特別萌、跟原圖有一定相似度,但又不會特別寫實”。

此外,模型還同時采用正向、負向文本引導生成的策略。除了描述生成圖像內(nèi)容、風格的正向條件外,還通過負向引導詞(negative prompt)優(yōu)化模型生成結果。通過在生成效果、生成內(nèi)容等方面進行約束,可有效提升模型在圖像細節(jié)上的生成質量, 并大大降低生成圖像涵蓋暴力、色情等敏感內(nèi)容的風險。

抖音「AI繪畫」還針對不同場景對風格效果進行了優(yōu)化。

首先,基于圖像理解基礎能力,對用戶圖像進行場景分類,如人像、寵物、后置場景等,對包含人像的場景,進一步對性別、人數(shù)、年齡等屬性進行檢測。對于不同的細分場景,均有多組優(yōu)化的風格效果作為候選。在模型選擇上,90%的人像及50%的后置場景使用漫畫模型,其他則使用包含藝術風格的通常模型。此外,部分場景還以一定概率出現(xiàn)彩蛋效果,如人像性別反轉等效果。

研發(fā)Diffusion Model加速算法,節(jié)約上萬塊推理GPU消耗

相比于傳統(tǒng)的生成模型(GAN),擴散模型(Stable Diffusion)的模型體積和計算量更為龐大,AI繪畫需要一個耗時繁重的推理過程。

上線到抖音這樣一個億級DAU的平臺,對技術服務側而言,無論是顯存的占用,還是從GPU的推理耗時都較高,且面臨峰值過萬的 QPS 。

如何支持巨大的調(diào)用量和復雜的推理,是很大的挑戰(zhàn)。

為緩解線上GPU資源消耗,字節(jié)跳動智能創(chuàng)作團隊研發(fā)了Diffusion Model加速算法、采樣步數(shù)減少算法、高效模型圖融合技術、服務端推理部署框架等,并與NVIDIA技術團隊協(xié)同合作,優(yōu)化高性能神經(jīng)網(wǎng)絡推理庫,對AI繪畫模型進行了多個維度上的推理優(yōu)化。

上述一系列優(yōu)化方案顯著降低推理耗時、顯存占用以及加大服務端部署框架的數(shù)據(jù)吞吐,相對于基準模型QPS提升4倍以上,節(jié)約數(shù)萬塊推理GPU消耗,保障道具在抖音平臺高峰期的高效穩(wěn)定運轉。

無分類器引導擴散模型最近已被證明在高分辨率圖像生成方面非常有效,然而這種模型存在一個缺陷是它們在進行單步圖像生成時需要進行兩次模型推理,使得圖像生成的成本非常昂貴。

為了解決這個問題,字節(jié)跳動智能創(chuàng)作團隊提出了一種針對無分類器引導擴散模型的蒸餾算法AutoML-GFD(AutoML Guidance-Fusion Distillation),通過知識蒸餾的方式將條件引導信息和無條件信息進行知識融合,減少了模型在進行單步圖像生成時的推理次數(shù)和資源需求。

同時,在蒸餾過程中把negative prompt, scale guidance信息蒸餾到模型中,在不改變模型推理輸入的情況下達到更佳的效果;在Diffusion Model的訓練和采樣過程中,利用time-aware采樣針對性地優(yōu)化了重要時間步的效果,相對于基準模型可以進一步降低推理步數(shù);蒸餾算法整體壓測提升200%。

在服務端側,通過模型圖融合、 高效CUDA算子、OFFload PreCompute、前后處理算子融合、多線程并發(fā)等手段,協(xié)同字節(jié)跳動自研Lighten推理引擎和Ivory視覺服務框架,解決了多段模型Convert Failed和顯存溢出等問題,提升模型推理效率。

圖片

△經(jīng)過算法加速后生成的風格化圖片效果

火山引擎機器學習平臺將推理速度提升3.47倍,抖音同款智能繪圖產(chǎn)品已toB

當前,伴隨AIGC的應用日益多元和廣泛,用戶的痛點也隨之浮上水面。

以Stable Diffusion為例,一次完整的預訓練大約需要在 128 張 A100 計算卡上運行 25 天,用戶付費上百萬,高額的研發(fā)費用是用戶最大的痛點之一。

同時,AIGC 產(chǎn)品演進快速,對性能和資源提出更高要求。

字節(jié)跳動旗下的云服務平臺火山引擎為此類問題提供了解決方案,推動 AIGC 產(chǎn)業(yè)的發(fā)展。

火山引擎機器學習平臺打造同時支持訓練加速與推理加速的自主研發(fā)高性能算子庫,在全面提升 AI 計算性能的基礎上,不斷追求節(jié)省顯存、簡單適配,同時支持多款 GPU 卡,為客戶帶來更多低成本、便捷的部署方案。

在推理場景下,基于 Stable Diffusion 模型的端到端推理速度達到 66.14 it/s,是 PyTorch 推理速度的 3.47 倍,運行時 GPU 顯存占用量降低 60%。

在客戶 AI 視頻創(chuàng)作的 AIGC 推理業(yè)務實踐中,火山引擎高性能算子庫搭載客戶的推理模型幫助其推理性能提升一倍,GPU 資源使用量減少一半,可為客戶節(jié)省 50% 成本。

圖片

在訓練場景下,使用該高性能算子庫可將上文 Stable Diffusion 模型在 128 張 A100 的訓練時間從 25 天減少到 15 天,訓練性能提升 40%。

同時,由于 AIGC 模型在訓練時占用 GPU 顯存容量非常大,未經(jīng)優(yōu)化時的模型只能運行在最高端的 A100 80GB GPU 卡上?;鹕揭娓咝阅芩阕訋焱ㄟ^大量消減中間操作,將運行時 GPU 顯存占用量降低 50%,使得大多數(shù)模型可從 A100 遷移到成本更低的 V100 或 A30 等 GPU 卡上運行,擺脫特定計算卡的限制,而且不需要做額外的模型轉換工作。

以此,以 AIGC 場景為代表,無論是迭代速度,還是單次的訓練成本,都有了顯著的性能提升和成本節(jié)省。

另外,火山引擎還面向企業(yè)客戶推出了智能繪圖產(chǎn)品,省去企業(yè)采集數(shù)據(jù)、訓練模型和優(yōu)化性能的時間和成本,可以快速接入業(yè)務,讓企業(yè)擁有開箱即用、抖音同款的AI繪畫能力。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-11 17:21:40

2021-03-18 17:32:29

抖音紅包技術

2009-05-27 10:39:54

EclipseGalileo

2019-11-14 08:56:31

AI文娛IP

2021-08-04 16:48:16

數(shù)字化

2010-11-08 10:07:23

SQL Server內(nèi)

2020-06-24 07:50:56

抖音特效移動應用

2021-08-04 16:49:13

數(shù)字化

2023-11-14 13:47:05

Arm

2019-06-21 09:55:10

刷抖美腿App

2021-08-04 16:50:22

數(shù)字化

2012-08-06 13:45:38

LTE網(wǎng)絡LTE

2016-10-25 12:12:50

2014-03-19 13:35:22

電商app設計

2022-03-28 18:38:00

SD-WANMPLS

2013-10-30 17:23:01

Chrome瀏覽器

2022-07-01 10:53:05

KubernetesLinux工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品久久久一区二区三区 | 成人h片在线观看 | 久久久婷 | 亚洲巨乳自拍在线视频 | 精品一区二区三区在线观看 | 国产一区二区三区久久久久久久久 | 国产wwwcom| 东京久久| 一区二区中文字幕 | 一级黄色片毛片 | 亚洲国产精品久久 | av一区二区三区四区 | 日韩精品二区 | 国产精品毛片久久久久久 | 国产精品成人一区 | 久久久久国色av免费观看性色 | 美女在线国产 | www312aⅴ欧美在线看 | 欧美嘿咻| 日韩在线不卡 | av中文在线观看 | 免费在线观看一区二区三区 | 日韩伦理一区二区三区 | 国产精品免费视频一区 | aaa级片 | 日本福利视频免费观看 | 欧美一区二区三区在线观看 | 久草精品视频 | 精品99久久久久久 | 久久精品网 | 一区二区在线观看免费视频 | 国产欧美日韩精品一区二区三区 | 国产日本精品视频 | 国产精品99久久久久久久久 | 欧美精品一区二区三区视频 | 国产区久久 | 日本在线综合 | 国产成人精品一区二 | 精品国产乱码久久久久久牛牛 | 亚洲欧美中文日韩在线v日本 | 国产一区二区三区在线视频 |