成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解 精華

發布于 2024-5-15 09:42
瀏覽
0收藏

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

非常令人激動,騰訊混元文生圖大模型已在 Hugging Face 平臺及 Github 上發布,包含模型權重、推理代碼、模型算法等完整模型。


且不管是企業還是個人開發者,全部免費可用。


主頁:https://dit.hunyuan.tencent.com/
代碼:https://github.com/Tencent/HunyuanDiT


國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

下面來詳細介紹下混元大模型的技術細節,期待國內更多大模型能發布,讓AIGC行業應用全面爆發:


Hunyuan-DiT,這是一種具備細粒度理解能力的文本到圖像擴散transformer,能夠處理中文和英文。為了構建Hunyuan-DiT,精心設計了transformer結構、文本編碼器和位置編碼。此外,還從頭開始建立了完整的數據pipeline,以更新和評估數據,進行迭代的模型優化。


為了實現細粒度的語言理解,訓練了一種多模態大語言模型,用于細化圖像的標題描述。

最終,Hunyuan-DiT能夠與用戶進行多輪多模態對話,根據上下文生成和優化圖像。通過我們綜合的人類評估協議,超過50位專業評估員參與評估,Hunyuan-DiT在中文到圖像生成方面相比其他開源模型設立了新的標桿。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

介紹

基于擴散的文本生成圖像模型,如DALL-E、Stable Diffusion和Pixart,已經展示了生成前所未有質量圖像的能力。然而,它們缺乏直接理解中文提示的能力,限制了其在中文文本提示下的圖像生成潛力。為了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它們的生成質量仍需改進。


在本報告中,介紹了構建Hunyuan-DiT的完整流程,該模型可以根據中文和英文提示生成不同分辨率的高質量詳細圖像。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

Hunyuan-DiT的貢獻:

  • (1) 設計了基于擴散transformer的新網絡架構。它結合了兩個文本編碼器:雙語CLIP和多語言T5編碼器,以提高語言理解能力并增加上下文長度。
  • (2) 從頭構建了一個數據處理pipeline,用于添加數據、過濾數據、維護數據、更新數據并應用數據來優化我們的文本到圖像模型。具體來說,我們設計了一個稱為“數據護航”的迭代過程來檢查新數據的有效性。
  • (3) 使用多模態大語言模型(MLLM)來優化圖像-文本數據對中的原始標題描述。我們的MLLM經過微調以生成具有世界知識的結構化標題描述。
  • (4) 使Hunyuan-DiT能夠通過與用戶進行多輪對話來交互地修改其生成內容。
  • (5) 我們在推理階段進行后期訓練優化,以降低Hunyuan-DiT的部署成本。


為了全面評估Hunyuan-DiT的性能,還制定了一個包含50多位專業評估員的評估協議。該協議仔細考慮了文本生成圖像模型的不同維度,包括文本-圖像一致性、AI偽影、主體清晰度、美學等。評估協議被納入數據護航中以更新生成模型。


Hunyuan-DiT在開源模型中實現了SOTA性能。在中文生成圖像方面,Hunyuan-DiT在文本-圖像一致性、排除AI偽影、主體清晰度和美學方面優于現有開源模型,包括Stable Diffusion 3。在主體清晰度和美學方面,其表現與頂級閉源模型如DALL-E 3和MidJourney v6相當。


在中文元素理解方面,包括古代漢詩和中國菜等類別,Hunyuan-DiT生成的圖像質量和語義準確性較其他比較算法更高。Hunyuan-DiT支持長文本理解,最多可達256個token。Hunyuan-DiT可以使用中文和英文文本提示生成圖像。在本報告中,除非另有說明,所有圖像均使用中文提示生成。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

方法

基于擴散transformer的改進生成

Hunyuan-DiT 是一個在潛空間中運行的擴散模型,如下圖7所示。按照潛擴散模型(Latent Diffusion Model),使用預訓練的變分自編碼器(VAE)將圖像壓縮到低維潛空間,并訓練一個擴散模型來學習數據分布。擴散模型通過transformer進行參數化。為了編碼文本提示,結合了預訓練的雙語(中文和英文)CLIP和多語言T5編碼器。下面將詳細介紹每個模塊。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

VAE 使用SDXL中的VAE,該模型在512 × 512圖像上進行了微調,基于SD 1.5的VAE。實驗結果顯示,基于高分辨率SDXL VAE訓練的文本到圖像模型在清晰度、過飽和緩解和失真減少方面優于SD 1.5 VAE。由于VAE的潛空間極大地影響生成質量,將在未來探索更好的VAE訓練范式。


國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區


文本編碼器 一個高效的文本編碼器在文本生成圖像過程中至關重要,因為它們需要準確理解和編碼輸入的文本提示以生成對應的圖像。CLIP和 T5已成為這些編碼器的主流選擇。Matryoshka擴散模型、Imagen、MUSE和 Pixart-α僅使用 T5 來增強對輸入文本提示的理解。相比之下,eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 兩種編碼器,以進一步提高其文本理解能力。Hunyuan-DiT 選擇結合 T5 和 CLIP 進行文本編碼,以利用這兩種模型的優勢,從而增強文本生成圖像過程的準確性和多樣性。


位置編碼和多分辨率生成 在視覺transformer中,一種常見的做法是應用正弦位置編碼來編碼token的絕對位置。在Hunyuan-DiT中,采用旋轉位置embedding(RoPE),同時編碼絕對位置和相對位置依賴性。使用二維RoPE,將RoPE擴展到圖像域。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

  • 擴展位置編碼:擴展位置編碼X以一種簡單的方式給出的位置編碼,即:

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

  • 中心插值位置編碼:使用中心插值位置編碼來對齊不同 h 和 w 的位置編碼。假設 h≥w,中心插值位置編碼計算位置編碼的方式為:

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

盡管擴展位置編碼更易于實現,但我們發現它在多分辨率訓練中是次優選擇。它無法對齊不同分辨率的圖像,也無法覆蓋 h 和 w 都較大的罕見情況。相反,中心插值位置編碼允許不同分辨率的圖像共享相似的位置編碼空間。使用中心插值位置編碼,模型收斂更快,并能更好地推廣到新分辨率。


提高訓練穩定性 為了穩定訓練,提出了三種技術:

  • 在所有注意力模塊中計算Q、K 和 V 之前添加層歸一化。這種技術被稱為 QK-Norm,提出于[12]。發現它對 Hunyuan-DiT 的訓練也很有效。
  • 在解碼器塊的跳躍模塊之后添加層歸一化,以避免訓練過程中損失爆炸。
  • 發現某些操作(例如層歸一化)在 FP16 下容易溢出。特意將它們切換到 FP32以避免數值錯誤。

數據pipeline

數據處理

訓練數據準備pipeline由四部分組成,如圖20所示:

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

  1. 數據獲取:數據獲取的主要渠道目前包括外部購買、開放數據下載和授權合作伙伴數據。
  2. 數據解讀:在獲得原始數據后,對數據進行打標簽以識別其優缺點。目前支持的標簽能力包括圖像清晰度、美學、猥褻內容、暴力、色情內容、水印存在、圖像分類和圖像描述等十多種。
  3. 數據分層:數據分層是為大批量圖像服務于模型訓練的不同階段而構建的。例如,數十億的圖文對被用作基礎(銅級)數據來訓練我們的基礎CLIP模型。然后,從這個大庫中篩選出相對高質量的圖像集作為銀級數據,用于訓練生成模型,以提高模型的質量和理解能力。最后,通過機器篩選和人工標注,選擇最高質量的數據作為金級數據,用于優化和精細化生成模型。
  4. 數據應用:分層數據應用于多個領域。專業數據被篩選出來用于專項優化,例如人物或風格的專業化。新處理的數據不斷加入基礎生成模型的迭代優化中。數據也經常被檢查以保持正在進行的數據處理的質量。

數據類別系統

我們發現訓練數據中數據類別的覆蓋范圍對于訓練精確的文本生成圖像模型至關重要。這里我們討論兩個基本類別:

  1. 主體:主體生成是文本生成圖像模型的基礎能力。訓練數據涵蓋了大多數類別,包括人物、風景、植物、動物、商品、交通工具、游戲等,擁有超過一萬個子類別。
  2. 風格:風格的多樣性對用戶的偏好和粘性至關重要。目前覆蓋了一百多種風格,包括動漫、3D、繪畫、寫實和傳統風格。

數據評估

為了評估引入專業數據或新處理數據對生成模型的影響,設計了一個“數據護航”機制,如圖21所示,具體包括:

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

  1. 根據數據類別系統將訓練數據分類,包含主體、風格、場景、構圖等。然后我們調整不同類別之間的分布,以滿足模型的需求,并使用類別平衡的數據集微調模型。
  2. 在類別級別上對比微調后的模型和原始模型,以評估數據的優缺點,并據此確定數據更新的方向。

成功運行該機制需要一個完整的文本生成圖像模型評估協議。我們的模型評估協議由兩部分組成:

  1. 評估集構建:通過結合壞案例和業務需求,根據我們的數據類別構建初始評估集。通過人工標注測試案例的合理性、邏輯性和全面性,確保評估集的可用性。
  2. 數據護航中的評估:在每次數據護航中,從評估集中隨機選擇一個子集,形成一個包含主體、風格、場景和構圖的整體評估子集。計算所有評估維度的總體評分,以輔助數據迭代。

細粒度中文理解的標題優化

從互聯網上抓取的圖文對通常是低質量的,為圖像提供更好的對應標題對訓練文本生成圖像模型非常重要。Hunyuan-DiT 采用訓練良好的多模態大語言模型(MLLM)來重新生成原始圖文對的標題,以提高數據質量。采用結構化標題來全面描述圖像。此外,還使用原始標題和包含世界知識的專家模型,以便在重新生成標題時生成特殊概念。


使用結構化標題重新生成標題現有的MLLMs,例如 BLIP-2 和 Qwen-VL,往往生成過于簡化的標題,這些標題類似于 MS-COCO 標題或高度冗余且與圖像無關的標題。為了訓練適合改進原始圖文對的MLLM,我們構建了一個大規模的結構化標題數據集,并對MLLM進行了微調。


我們使用AI輔助pipeline來構建數據集。人工標注圖像標題非常困難,且標注質量難以標準化。因此,使用三階段pipeline,通過AI輔助提高標注效率。在第一階段,集成多個基本圖像標注模型的標題,并結合人工標注,獲得初始數據集。在第二階段,用初始數據集訓練MLLM,然后用訓練好的模型為圖像生成新標題。隨著重新生成標題準確性的提高,人工標注的效率提高了約4倍。


我們的模型結構類似于LLAVA-1.6,由視覺部分的ViT、語言部分的僅解碼LLM和連接視覺與文本的適配器組成。訓練目標是與其他自回歸模型相同的分類損失。


通過信息注入重新生成標題在人類對結構化標題進行標注時,世界知識總是缺失的,因為人類不可能識別圖像中的所有特殊概念。我們采用兩種方法將世界知識注入標題中:

  1. 通過標簽注入重新生成標題:為了簡化標注過程,可以標注圖像的標簽,并使用MLLM從標注的標簽生成包含標簽的標題。除了由人類專家進行標注外,我們還可以使用專家模型獲取標簽,包括但不限于通用物體檢測器、地標分類模型和動作識別模型。從標簽中獲取的附加信息可以顯著增加生成標題中的世界知識。為此,我們設計了一個MLLM,將圖像和標簽作為輸入,輸出包含標簽信息的更全面的標題。我們發現這個MLLM可以用非常稀疏的人類標注數據進行訓練。
  2. 通過原始標題重新生成標題:Capsfusion提出了使用ChatGPT融合原始標題和生成的描述性標題。然而,原始標題通常存在噪音,單靠LLM無法糾正原始標題中的錯誤信息。為了解決這個問題,我們構建了一個MLLM,從圖像和原始標題生成標題,該模型可以通過考慮圖像信息來糾正錯誤。

多輪對話中的提示增強

理解自然語言指令并與用戶進行多輪交互對于文本到圖像系統至關重要。它有助于建立一個動態而迭代的創作過程,逐步將用戶的想法逐步變為現實。在本節中,我們將詳細介紹如何賦予Hunyuan-DiT執行多輪對話和圖像生成的能力。已經有許多工作努力為文本到圖像模型配備了使用MLLM的多輪功能,例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。這些模型要么使用MLLM生成文本提示,要么使用文本嵌入來為文本到圖像模型生成文本。我們選擇了第一種選擇,因為生成文本提示更靈活。我們訓練MLLM以理解多輪用戶對話并輸出用于圖像生成的新文本提示。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區


主題一致性的保證在多輪文本到圖像中,用戶可能要求AI系統多次編輯特定主題。我們的目標是確保跨多個對話輪次生成的主題盡可能保持一致。為了實現這一目標,我們在對話AI代理的“對話提示”中添加了以下約束條件。對于基于前幾輪生成的圖像進行的圖像生成,轉換后的文本提示應滿足用戶當前的需求,同時盡量少地改變與之前圖像使用的文本提示。此外,在給定對話的推理階段,我們固定了文本到圖像模型的隨機種子。這種方法顯著增加了對話中的主題一致性。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

推理階段的優化

工程優化將Hunyuan-DiT部署給用戶是昂貴的,我們采用了多種工程優化策略來提高推理效率,包括ONNX圖優化、內核優化、運算符融合、預計算和GPU內存重用。


算法加速最近,提出了各種方法來減少基于擴散的文本到圖像模型的推理步驟。我們嘗試將這些方法應用于加速Hunyuan-DiT,出現了以下問題:

  1. 訓練穩定性:觀察到對抗訓練往往由于不穩定的訓練方案而導致崩潰。
  2. 適應性:發現幾種方法導致的模型無法重用預訓練的插件模塊或LoRAs。
  3. 靈活性:在實踐中,潛變一致性模型只適用于低步驟生成。當推理步驟的數量超過一定閾值時,其性能會下降。這種限制阻礙了我們在生成性能和加速之間靈活調整平衡。
  4. 訓練成本:對抗訓練引入了額外的模塊來訓練鑒別模型,這對額外的GPU內存和訓練時間需求很大。


考慮到這些問題,我們選擇了漸進蒸餾。它具有穩定的訓練,并允許在加速比和性能之間平滑地進行權衡,為我們提供了最便宜和最快的模型加速方式。為了鼓勵學生模型準確模仿教師模型,我們在訓練過程中仔細調整了優化器、無分類器指導和正則化。

評估協議

評估指標

評估維度:在確定評估維度時,參考了現有文獻,并另外邀請了專業設計師和普通用戶參與訪談,以確保評估指標既具有專業性又具有實用性。具體來說,在評估我們的文本到圖像模型的能力時,采用了以下四個維度:文本-圖像一致性、AI偽影、主題清晰度和整體美感。對于引起安全問題的結果(如涉及色情、政治、暴力或流血等),直接token為不可接受。


多輪交互評估:在評估多輪對話交互的能力時,還評估了額外的維度,如指令符合性、主題一致性和多輪提示增強對圖像生成的性能。


評估數據集構建

數據集構建將人工生成的測試提示與人類創建的測試提示相結合,構建了一個具有各種難度級別的分層評估數據集。具體而言,我們根據文本提示內容的豐富程度、描述元素的數量(主題、主題修飾語、背景描述、風格等)、元素是否常見以及是否包含抽象語義(如詩歌、成語、諺語等)等因素,將評估數據集分為三個難度級別 - 簡單、中等和困難。

此外,由于使用人工創建測試提示時存在同質性和長期生產周期的問題,我們依賴于LLM來增加測試提示的多樣性和難度,快速迭代提示生成,并減少人工勞動。


評估數據集類別和分布在構建分層評估數據集的過程中,分析了用戶在使用文本到圖像生成模型時使用的文本提示,并結合用戶訪談和專家設計師意見,覆蓋了功能應用、角色性質、中國元素、多輪文本到圖像生成、藝術風格、主題細節等主要類別。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

不同的類別進一步分為多個層次。例如,“主題細節”類別進一步細分為動物、植物、車輛和地標等子類別。對于每個子類別,我們保持提示數量超過30。

評估執行

評估團隊評估團隊由專業評估人員組成。他們具有豐富的專業知識和評估經驗,能夠準確執行評估任務并提供深入分析。評估團隊擁有50多名成員。


評估流程評估流程包括兩個階段:評估標準培訓和多人校正。在評估標準培訓階段,我們為評估人員提供詳細的培訓,以確保他們對評估指標和工具有清晰的理解。在多人校正階段,讓多名評估人員獨立評估同一組圖像,然后總結和分析評估結果,以減輕評估人員之間的主觀偏見。


特別是,評估數據集以3級分層方式構建,包括8個一級類別和70多個二級類別。對于每個二級類別,我們在評估集中有30 - 50個提示。評估集總共有3000多個提示。具體來說,我們的評估分數計算步驟如下:


  1. 計算單個提示的結果:對于每個提示,邀請多名評估人員獨立評估模型生成的圖像。然后,匯總評估人員的評估結果,并計算認為圖像可接受的評估人員所占的比例。例如,如果有10名評估人員參與,其中7名認為圖像可接受,則該提示的通過率為70%。
  2. 計算二級類別分數:根據內容將提示分類為二級類別。同一二級類別下的每個提示具有相等的權重。對于同一二級類別下的所有提示,計算其通過率的平均值,以獲得該二級類別的分數。例如,如果一個二級類別有5個通過率分別為60%、70%、80%、90%和100%的提示,則該二級類別的分數為(60% + 70% + 80% + 90% + 100%) / 5 = 80%。
  3. 計算一級類別分數:基于二級類別分數,計算一級類別的分數。對于每個一級類別,取其下屬二級類別分數的平均值,以獲得一級類別分數。例如,如果一個一級類別有3個二級類別分別為70%、80%和90%,則該一級類別的分數為(70% + 80% + 90%) / 3 = 80%。
  4. 計算總體通過率:最后,根據每個一級類別的權重計算總體通過率。假設有3個一級類別,分別為70%、80%和90%,其權重分別為0.3、0.5和0.2,那么總體通過率將為0.3 ×70% + 0.5 ×80% + 0.2 ×90% = 79%。一級類別的權重是通過與用戶、設計師和專家進行仔細討論確定的,如表2所示。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

通過上述過程,我們可以獲得模型在不同類別級別上的通過率,以及總體通過率,從而全面評估模型的性能。


評估結果分析:在評估后,我們對結果進行深入分析,包括:

  1. 對不同評估指標(文本-圖像一致性、AI偽像、主題清晰度和整體美感)的結果進行綜合分析,以了解模型在各個方面的表現。
  2. 對模型在不同難度級別任務上的表現進行比較分析,以了解模型在處理復雜情景和抽象語義方面的能力。
  3. 確定模型的優勢和劣勢,為未來優化提供方向。
  4. 與其他最先進的模型進行比較。

評估協議演進

在評估框架的持續優化中,將考慮以下幾個方面來改進我們的評估協議以適應新的挑戰:

  • 引入新的評估維度;
  • 在評估反饋中添加深入分析,例如文本-圖像不一致發生的地點或扭曲位置的精確token;
  • 動態調整評估數據集;
  • 利用機器評估來提高評估效率。

結果

定量評估

與最新技術的比較 將混沌-DiT與最新技術的模型進行了比較,包括開源模型(Playground 2.5、PixArt-α、SDXL)和閉源模型(DALL-E 3、SD 3、MidJourney v6)。遵循前面中的評估協議。所有模型都在四個維度上進行評估,包括文本-圖像一致性、排除AI偽像的能力、主題清晰度和美感。如表1所示,與其他開源模型相比,Hunyuan-DiT在所有四個維度上取得了最佳得分。與閉源模型相比,Hunyuan-DiT在主題清晰度和圖像美感方面可以達到與MidJourney v6和DALL-E 3等SOTA模型類似的性能。就總體通過率而言,Hunyuan-DiT在所有模型中排名第三,優于現有的開源替代方案。Hunyuan-DiT總共有15億參數。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

消融研究

實驗設置 我們遵循先前研究中的設置,在MS COCO 256×256驗證數據集上使用零樣本Frechet Inception Distance(FID)評估模型的不同變體,通過從驗證集中的提示生成30,000張圖像。還報告了這些生成圖像的平均CLIP分數,以檢查文本提示和圖像之間的對應關系。這些消融研究是在較小的0.7B擴散Transformer上進行的。


跳過模塊的影響 長跳過連接用于在U-Net中的對稱位置的編碼和解碼層之間實現特征融合。我們在Hunyuan-DiT中使用跳過模塊來模仿這種設計。如圖所示,觀察到去除長跳過連接會增加FID并降低CLIP分數。


旋轉位置編碼(RoPE) 將正弦位置編碼(DiT中的原始位置編碼)與RoPE進行了比較。結果如圖15所示。我們發現在大多數訓練階段,RoPE位置編碼的性能優于正弦位置編碼。特別是,我們發現RoPE加速了模型的收斂。我們假設這是由于RoPE能夠封裝絕對位置信息和相對位置信息。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

我們還評估了在文本特征中包含一維RoPE位置編碼的情況,如圖15所示。我們發現,將RoPE位置編碼添加到文本嵌入中并沒有帶來顯著的收益。文本編碼器我們評估了三種文本編碼方案:

  • 僅使用我們自己的雙語(中英文)CLIP
  • 僅使用多語言T5
  • 同時使用雙語CLIP和多語言T5。


在圖16中,僅使用CLIP編碼器的性能優于僅使用多語言T5編碼器。此外,將雙語CLIP編碼器與多語言T5編碼器相結合,充分利用了CLIP的高效語義捕捉能力和T5的細粒度語義理解優勢,導致FID和CLIP分數顯著提高。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

我們還在圖17中探索了兩種合并CLIP和T5特征的方法:沿通道維度合并和沿長度維度合并。我們發現,沿文本長度維度連接文本編碼器的特征可以獲得更好的性能。我們的假設是,通過沿文本長度維度連接,模型可以充分利用Transformer的全局注意力機制來聚焦于每個文本槽。這有助于更好地理解和整合T5和CLIP提供的不同維度的語義信息。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

總結

本報告介紹了構建Hunyuan-DiT的整個流程,這是一個具有理解中文和英文能力的文本到圖像模型。報告闡明了Hunyuan-DiT的模型設計、數據處理和評估協議。通過從不同方面的努力結合起來,Hunyuan-DiT在開源模型中實現了在中文到圖像生成方面的最佳性能。希望Hunyuan-DiT能成為社區訓練更好的文本到圖像模型的有用參考。

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

國內首個中文原生DiT架構SOTA大模型全面開源!———Hunyuan-DiT技術報告詳解-AI.x社區

本文轉自 AI生成未來 ,作者:Zhimin Li等


原文鏈接:  ??https://mp.weixin.qq.com/s/aEvVVSx_DC0OOWIlU9uZtA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩伦理电影免费在线观看 | 成人三级视频在线观看 | 91婷婷韩国欧美一区二区 | 麻豆一区二区三区 | 欧美成人a| 九九热在线视频 | 久久国产精品久久久久久 | 在线精品一区二区三区 | 欧美日韩精品一区二区三区视频 | 亚洲超碰在线观看 | 91久久久久久久久久久久久 | 久热精品在线播放 | 欧美日韩在线观看一区二区三区 | 久久中文字幕av | 国产欧美精品一区二区三区 | 一级黄色片在线免费观看 | 欧美一区二区三区视频 | 欧美日韩一区二区三区四区 | 天天操操| 久久久久久久久淑女av国产精品 | 91国内外精品自在线播放 | 五月天国产视频 | 黄色毛片在线播放 | 成人福利网站 | 性欧美精品一区二区三区在线播放 | 日日操夜夜操天天操 | 亚洲 一区| 国产精品99久久久久久久久久久久 | 美女视频黄的免费 | 成人一区二区电影 | 羞羞视频网站免费看 | 偷牌自拍| 国产午夜在线 | 91久久国产综合久久 | 亚洲一区二区国产 | 日韩一区二区在线视频 | 精品福利在线 | 观看av| 97日韩精品 | 国产精品久久久久久久久久免费看 | 亚洲欧美中文日韩在线v日本 |