成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

網頁多模態建模思考

人工智能
多模態大模型發展到新的階段,已經可以將圖片(視頻)、文本通過統一的decoder模型處理 。如何有效利用已有大模型的能力,低成本適配到網頁,是當前研究的熱點和難點。

1.綜述

網頁本質上是一種超文本,一般由超文本標記語言來定義(例如HTML)。HTML是一種基礎技術,常與CSS、JavaScript一起被眾多網站用于設計網頁、網頁應用程序以及移動應用程序的用戶界面 。網頁瀏覽器內核通過解釋HTML文件,通過視覺引擎將其渲染成可視化網頁。

由于HTML的復雜性特點,使得網頁體現出多模態性,多粒度性,并且這些模態內部存在復雜的對應關系。

  • 多模態性

所謂多模態性,即從不同視角下,網頁體現出不同的形態。從信息載體角度看,它是文本、圖像、視頻等多媒體元素集合。從視覺層面看,它擁有圖層的概念,是各層圖像堆疊起來形成了一張完整的“圖片”。從底層代碼邏輯看,它是一種特殊的類XML語言,定義了一棵具有層次關系的樹(dom-tree)。

  • 多粒度性

所謂多粒度性,即網頁無論從哪種模態看,都是由粒度不等的元素組成的。

以資訊類網頁舉例,從信息載體模態看,網頁由段落組成,段落又由句子組成,句子由tokens組成;

從視覺層面,網頁由不同尺寸的圖層,依次堆疊而成;

從底層代碼邏輯看,html由不同高度以及大小的子樹構成。

  • 內在的對齊邏輯

多種模態的基本元素之間,存在多對多的對齊關系。

對于dom-tree的結點,對應視覺層面的一個圖層,亦可對應著一個或者多個句子

一個句子,可能對應著一個結點,也可能對應著多個結點

一個例子:多模態的網頁表示

語義:句子{圖像、視頻等可文本化)的集合語義:句子{圖像、視頻等可文本化)的集合

結構:dom結點構成的樹結構:dom結點構成的樹

視覺:圖層的疊加(輪廓圖)視覺:圖層的疊加(輪廓圖)

由于網頁的多模態性,多粒度性,以及潛在對齊關系的特點,使得對網頁的建模,與對富文本的建模思路有著顯著的不同。如果將網頁作為富文本處理,會丟失大量的信息

舉一個簡單的例子,一個文本位于網頁的不同位置(譬如正文區域,推薦區域),它的重要性是完全不一樣的。

而復雜的業務下游應用,例如網頁質量甄別,網頁結構化分塊等,僅依賴文本的語義信息是遠遠不夠的,需要綜合考慮多模態的信息,以及多模態間的對齊信息。

下面,結合業界研究和我們的探索,從多模態信息融合、預訓練方案方面展開。最后,探討LLM時代,網頁多模態模型的可能的探索方向。

2.多模態多粒度特征融合

如何將多粒度,多模態的特征融合,是一個復雜的問題。

  • 多粒度信息的表示

這個部分,業內解決方案較多。

對語義信息建模,基于hierarchical attention的有較多方案。一種方式,是通過bert等編碼器,輸入tokens,取CLS單元輸出作為句子的向量表示;再通過transformer結構,輸入句子向量,計算句子間attention,得到句子以及篇章的稠密向量表示,用于下游任務。

對于結構建模,以html-dom為基本單元。通過全連接層,融合bounding box坐標、webkit提取的css style信息等。

對于視覺建模,可以基于vit,以patch為基本單元。

  • 多對多對應關系下,多模態信息融合

這部分,相關研究主要有四種方案:頂層融合,底層融合、多模態統一建模以及多模態交叉attention的方案。

圖片圖片

底層融合即在輸入層將多模態信息對齊后拼接作為transformer層的輸入。這種方案對多任務預訓練方案設計(包括任務類型,多任務loss權重設計)要求較高,不利于多種模態的信息的平衡。

頂層融合即在頂層獲取一個結點或者語句對應的多模態向量,拼接后用于下游分類或回歸任務。缺點在于,各模態獨立建模的時候,缺少了相關信息交互,不能充分利用多模態之間的對齊信息。

多模態統一建模,以LayoutV2為例,將文本、圖片信息通過不同的編碼器定長編碼后,輸入統一的transformer中。對于多模態綜合理解任務來說,很難在輸入層顯示的注入多模態的對齊信息;網頁結構的單元向量與語義、視覺(網頁輪廓圖)的單元向量亦很難通過淺層的編碼器投影到相同的語義空間內。

通過對比,認為在網頁建模場景下,多模態交叉attention是一個較好的方案。具體來說,各模態分域表示,域之間相互獨立;通過多模態交叉attention層完成多模態間信息交互。DocFormer提出的multi-modal attention,Beit3提出的MultiWay Transformer等本質上均為這種思路。

在多對多對齊關系下(即一個模態的基本單元,可能對應另外一個模態多個基本單元)。可使用聚合函數(例如average-pooling,lstm等),將對應模態上一層transformer-encode輸出的對應單元序列,通過聚合操作后變換為定長向量,輸入到多模態attention層計算。

圖片圖片

圖片圖片

3.預訓練任務設計

如何設計針對多個模態,不同粒度的任務,以及如何低成本的構建偽標簽,是訓練網頁基座模型的關鍵。

分析業務中下游任務的特點,在預訓練階段設計了如下4個類別的的預訓練任務。


細粒度

整體

語義

句子粒度任務(例如句子語義重建)

篇章粒度任務(例如title重建,偽query生成)

結構/視覺

html-dom粒度任務(例如tag重建)

對頁面整體的結構分類任務(例如頁面結構分類)

對于細粒度的語義預訓練場景,借鑒token粒度MLM的思路,mask完整的句子,并且通過decoder重建句子。

對于粗粒度的篇章預訓練場景,結合搜索點擊日志,mask掉title后,通過decoder去噪重建title以及生成用戶點擊的query。

對于細粒度的html-dom粒度預訓練場景,通過html_tag mask/重建,結點亂序重排進行訓練。

對于篇章粒度的結構任務,通過GPT等生成頁面類型的偽標簽,作為監督信號訓練。

4.展望:LLM時代的網頁基座模型探索方向

現階段,多模態大模型發展到新的階段,已經可以將圖片(視頻)、文本通過統一的decoder模型處理 。如何有效利用已有大模型的能力,低成本適配到網頁,是當前研究的熱點和難點。

一個樸素的思想,是將整個html源碼輸入給大模型,做進一步postpretrain使得模型適配網頁。但是,由于網頁源碼的平均長度非常大(根據我們對百度網頁庫的統計,平均源碼長度在160k),如果再將節點的樣式以style標簽形式注入,源碼長度預計會翻數十倍。面向海量網頁計算極難落地。再者,針對網頁場景下做若干輪post-pretrain成本亦很高。

一個可行思路是,通過adaptor網絡,將網頁html-dom的結構、位置以及視覺信息變換到已有多模態大模型的空間中,壓縮成若干定長向量表示。

通過adaptor網絡與LLM聯合訓練,調低LLM的學習率(盡量不擾動已有LLM的參數,保留LLM的泛化性);通過特殊標簽,注入adaptor產出的tokens向量,讓LLM解釋隱式向量代表的含義,訓練adaptor網絡。

例如,構建prompt:

以下是一個網頁的dom結點表示<STRUCT>adaptor_tokens</STRUCT>,輸出css描述文本:style="xxxxx"

訓練adator網絡,使得產出的tokens向量能夠與LLM的語義空間打平

責任編輯:武曉燕 來源: 百度Geek說
相關推薦

2020-10-10 06:53:18

數據建模數據庫

2025-01-08 08:21:16

2024-12-02 08:30:00

2024-05-21 07:54:30

視頻多模態語義檢索算法

2023-05-28 23:26:16

多模態機器學習大腦

2023-10-20 07:50:33

多模態大模型算法

2025-06-19 09:15:00

自然語言訓練模型

2025-03-19 09:30:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2021-01-27 14:29:05

人工智能AI生物識別

2024-10-29 11:54:25

2025-02-10 07:10:00

多模態embeddingsAI

2025-04-07 00:00:00

多模態大模型

2025-05-21 08:47:00

2025-05-06 08:40:00

2025-06-09 08:50:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 人妖一区 | 国产97在线看 | 亚洲a视频| www国产成人免费观看视频,深夜成人网 | 玖玖免费 | 91电影在线| 色姑娘综合网 | 一级黄色片一级黄色片 | 二区亚洲 | 久久国产激情视频 | 欧美理论片在线观看 | wwwww在线观看| 精品1区2区3区 | 麻豆久久久9性大片 | 色香蕉在线 | 最新毛片网站 | 亚洲淫视频| 久久久成人免费视频 | 亚洲成人精品在线观看 | 午夜精品久久 | 国产精品久久久久久久久久 | 日韩精品久久久久久 | 日韩看片 | 99久久日韩精品免费热麻豆美女 | 亚洲欧美激情国产综合久久久 | 亚洲视频中文字幕 | 欧美日韩精品一区二区三区视频 | 日本一二区视频 | 亚洲久久在线 | 色综合99| 一区在线视频 | 色综合久久天天综合网 | 成年人在线视频 | 一区二区三区网站 | 成人精品一区二区 | 福利一区视频 | 成人不卡 | 男女羞羞视频免费看 | 国产高清一区二区 | av中文在线播放 | 久久久久久成人 |