自媒體文章質量如何AI知道,這是微信的自動評估算法
自媒體時代,每個公眾號都在思考一個問題:如何讓我的文章被更多人看到?其實,除了運營之外,本章本身的質量才是最根本的。在這篇文章中,騰訊微信數據質量團隊解讀了他們的自媒體在線文章質量自動評估算法,告訴你模型眼中的好文章都是什么樣的。
移動閱讀時代涌現了許多用戶生成內容模式下的自媒體平臺,每個用戶都可以作為內容生產者,這種開放性同時也導致了自媒體在線文章的質量參差不齊。自動評估自媒體在線文章質量對在線推薦、搜索和廣告等應用場景都具有重要意義,然而當前幾乎沒有針對該任務的研究工作。
不同于格式良好的傳統文章(例如學術論文和 Wikipedia 文檔),自媒體在線文章主要由用戶創建,沒有統一的格式、布局和寫作規范,包含文本、圖像和視頻的多模態混合編輯,以及內容豐富、風格多樣、語義跨度大的潛在特征。同時,評估過程需要充分考慮讀者的閱讀體驗。此外,影響文章質量的因素包括內容,排版布局,寫作風格等不同方面下的多種影響因素。這些都使得自媒體在線文章質量的自動評估變得更加復雜和具有挑戰性。
為了解決這些挑戰,在 ACM MM2020 中,騰訊微信數據質量團隊建立了一個統一的框架來有效地學習和整合在線文章質量評估的不同因素,結合排版布局、寫作風格和深度語義建立了一個聯合模型 CoQAN ,設計了不同的表示學習子網絡,特別是考慮了交互特征學習過程和移動終端上的交互閱讀習慣,這與人類對文章質量評價的認知方式更為貼合。作者還構建了一個大規模的真實世界評估數據集。充分的實驗結果表明,所提出的方法有效地學習和整合了在線文章質量評估的不同因素。
論文鏈接:https://arxiv.org/pdf/2008.05658.pdf
考慮到自媒體平臺的性質,作者將自媒體在線文章質量合理地定義為文章帶給用戶的閱讀體驗水平,即文章的可讀性,反映在文章的信息內容、寫作規范、用戶感知等方面。
高質量文章需要滿足布局工整美觀,有清晰的版塊和段落劃分,圖片和文字排列整齊; 內容具有連貫性和高聚合度,具有良好的寫作邏輯和豐富的信息。相反,低質量的文章往往布局或寫作邏輯令人困惑,內容不完整或無意義,甚至可能是一片擁擠的文本或混亂的純圖片或視頻。
圖 1 展示了兩篇報道同一新聞「綁架和謀殺中國學者張瑩穎事件」的微信公眾號文章,我們可以很容易地分辨出它們之間的區別:右側低質量的文章包含不相關的廣告圖片,并且它在很少的文本行數中使用了多種文本格式,這給讀者的眼睛帶來了不必要的負擔,而且在表達上使用了更多口語和情感詞。相反地,左側的高質量文章具有更好的寫作邏輯和表達方式并傳達了更豐富的內容。
圖 1:高質文章(左)與低質文章(右)示例
我們知道人類閱讀自媒體在線文章時的認知過程是由淺入深的。
讀者點開文章時,首先感受到的是排版外觀,即讀者的表層認知。精美的視覺布局和豐富的呈現形式可以使讀者對文章產生興趣,并為讀者帶來更好的閱讀體驗。
然后,讀者通過瀏覽詞匯、句法、文章組織和圖片來獲得內容的主要印象,這是讀者的淺層認知。
最后,讀者需要對文本語義和寫作邏輯有深度的理解,才能領略到文章的意義和價值,這是讀者的深層認知。
受上述認知過程的啟發,本文建議結合布局組織、寫作特征和文本語義,交互地進行特征表示學習并整合到統一框架中以評估自媒體在線文章的質量。不同于傳統的文檔質量評估大多只考慮文本要素,本文所提方法將圖片用作建模頁面布局的關鍵單元,并提取重要的圖片特征以反映視覺觀感水平和文章的可讀性。
該工作的主要貢獻包括:
據了解,這是解決自媒體在線文章質量自動評估的第一項研究工作。所提出的方法可以很好地模擬人類專家的評分要素和閱讀習慣。
作者提出了一個結合了不同特征空間子網絡的聯合認知表示學習模型,并構建了自媒體在線文章質量評估的端到端框架。
作者構造一個大規模的現實世界數據集。充分的實驗結果表明,提出的模型明顯優于以往的文檔質量評估方法。
具體方法
本文將自媒體在線文章質量評估視為一項分類任務,即給定一篇文章,預測其為高質量文章或是低質量文章。
圖 2 展示了本文提出的自媒體在線文章質量評估的 CoQAN 網絡架構,其中設計了三個子網絡來解耦布局組織、寫作特征和文本語義的建模。
對于布局建模,研究者考慮了人們在終端上閱讀自媒體文章時從上到下滑動瀏覽的順序閱讀習慣,將文章劃分為內容塊序列,顯式地學習文章圖文標題等要素的排版布局,并同時捕捉整體的頁面布局和局部的排版模式。
寫作特征子網絡考慮到了多模態元素特征,并且能夠通過深層次的特征交互關系的學習進行不同特征子空間的特征選擇和特征融合,實現高階非線性的特征融合。
文本語義子網絡從不同語義層次深入捕獲篇章級長文本內容中的語義和內聚關系,深入學習復雜的語義空間中詞間和句間的依賴以及文章整體的寫作邏輯。在融合層,每個子網絡都經過一個全連接層以調整各神經元在輸出向量中的權重,級聯后經過輸出層預測得到質量類別。
圖 2:本文提出的自媒體在線文章質量評估的 CoQAN 網絡架構
布局組織子網絡
為了顯式學習外觀布局的組織排列,作者首先通過頁面解析將文章劃分為一序列的內容塊,內容塊可以是標題、段落、圖片或視頻,如圖 3 所示。
之后,為每個內容塊提取頁面布局相關特征,例如類型(文本 / 圖片 / 視頻)、在文章中的位置、內容塊自身高度、距頁面頂部的距離等。將這些特征值進行聚合構成每個內容塊的排版特征向量,其可以表達多個重要的布局特征。
圖 3 :布局組織子網絡中內容塊提取和輸入特征向量的構建
在內容塊排版特征向量序列上應用 GRU 網絡來建模內容塊之間的序列依賴并捕獲文章的全局排列模式。同時,作者在輸入排版向量上應用了一維卷積神經網絡以學習關鍵的局部布局,設定多個尺寸的卷積核來捕獲不同比例的布局模式。 兩個網絡進行級聯產生該子網絡的輸出向量。
寫作特征子網絡
寫作特征子網絡可以捕獲在線文章的編輯風格。作者提取和計算了包括標題、正文、圖片和視頻、篇章組織等方面的特征。例如,標題特征包括標題長度、關鍵字數目等;正文特征包括文章類別、文本長度、n-gram、詞性標簽、非重復字符和非重復單詞比例等;圖片和視頻特征包括圖片數目、動圖數目、視頻數目、OCR 文字的最大數目等,篇章組織特征包括段落數目、作為版塊標識的模板圖片數目、圖片數與段落數的比例等。
為了允許不同類別特征和數值特征之間的交互,寫作特征子網絡首先通過嵌入層將所有特征投影到相同的特征空間中,旨在在嵌入空間中對高階組合特征進行建模。在本文中,作者通過應用多頭自注意力層同時在多個特征子空間中學習不同特征之間的相互依賴關系,并進行特征空間的融合。多頭使得一個特征域可以包含在不同組合特征中。
作者在網絡中添加了殘差連接以保留之前學習到的更低階的組合特征,包括原始的單特征。網絡堆疊多層多頭自注意力層,從而可以同時建模多階組合特征,實現不同空間的深度特征融合。
文本語義子網絡
作者改進 BERT,設計 hi-Bert 作為文本語義子網絡。依靠強大的預訓練技術,BERT 具有很強的建模上下文關系的能力。由于 BERT 中的自注意力機制的時間復雜度為 O(n2),BERT 目前僅用于處理句子級文本,并不適合用于文檔級長文本輸入。考慮到文檔固有的層次結構,即單詞構成句子、句子構成文檔,作者將 BERT 改進為層次結構稱為 hi-BERT,其包含兩個層級的編碼器依次對文檔進行編碼,分別應用于句子級別和文檔級別。
由于標題是對文章的高層概述,這里將標題也作為輸入句子。在句子級別,網絡以遷移學習的方式使用預訓練的 BERT。在文檔級別,作者采用了文檔級雙向 Transformer 層學習句子之間的深層依賴關系得到最終的文章語義向量。hi-BERT 可以深入學習單詞和句子之間的交互關系,并在面對不同的寫作風格時可以學習到魯棒的文章語義表示。
實驗結果
由于尚無公開數據集可用于自媒體在線文章質量評估任務,作者從微信公眾號平臺上收集處理在線文章數據,構建了一個自媒體在線文章質量分類數據集。該數據集包含 38,248 篇在線文章,涵蓋了 44 種文章類別,涵蓋新聞,金融,技術,民生等。實驗在該數據集上進行評估。
對比實驗結果顯示,所提方法 CoQAN 在各項指標上均顯著達到最佳。實驗中,基線模型與本文所提模型使用相同的特征,因此模型的優越性能受益于作者提出的聯合網絡表示學習架構,可以完備性地學習到更多有價值的信息。
消融實驗結果證明了每個子網絡的架構以及聯合學習的有效性。去除文本語義子網絡時,網絡性能下降最大,這說明建模好復雜的寫作知識是非常必要的。另外,文本語義子網絡的性能超過了僅對文本輸入建模的所有基線模型,并且寫作特征子網絡的性能超過了所有基于特征的基線模型,對文章布局的建模可以有效提升文章質量評估的性能。從實驗結果來看,任何兩個子網絡聯合后的性能都優于單一子網絡,并且聯合了三個子網絡的整體網絡 CoQAN 是最優的,這證明每個子網絡對于自媒體在線文章質量評估都發揮了重要作用。
作者設計了擾動實驗,以驗證模型是否可以學習到所關注的寫作邏輯和布局模式。實驗中,隨機打亂所有被正確預測為正樣本的文章的句子或布局內容塊的順序,并將打亂后的樣本視為負樣本,觀察成功擾動的比例。擾動率越高,說明模型對寫作邏輯和布局模式更為敏感,對文章質量的評估能力越強。
從結果來看,本文提出的模型顯然比所有對比模型對句子打亂的干擾更為敏感,這表明 CoQAN 可以更輕松地捕獲句子之間的內聚關系,并學習內容和寫作邏輯的一致性。單文本語義子網絡(TS)的成功干擾率要高于整體聯合網絡 CoQAN ,這是因為擾動實驗是對正樣本進行的,而正樣本具有良好的文本質量和排版質量。因此,當僅打亂句子時,良好的布局會在一定程度上阻止 CoQAN 將其判斷為負樣本。同時打亂布局順序和句子順序時,成功干擾的比例遠高于單一維度下的干擾。這些結果證明了本文提出的 CoQAN 成功地學習到了文本寫作和頁面布局的知識。
另外,作者對特征的交互關系進行了可視化分析,發現底部自注意力層可以區分主導特征,而頂層則學習更復雜的特征空間交互,獲得有意義的高階融合特征。圖中結果可見,占主導的特征有文本長度和圖片中的最大字符數,高質文章通常具有更豐富的內容和更規則的圖片,而低質文章通常具有不完整的內容,并且經常出現包含很多文本文字的廣告圖片。其他重要特征包括圖片中文本區域占比,非重復詞數,標題中的關鍵詞數,圖片數,段落數和詞性等,表明圖片、標題、寫作和正文的組織對于自媒體在線文章質量都非常重要。