[ACL 2025] 清華&港中文提出 MorphMark:全新理論視角破解大模型水印效力與文本質量的兩難困境
圖片
論文:MorphMark: Flexible Adaptive Watermarking for Large Language Models
鏈接:https://arxiv.org/abs/2505.11541
圖片
一、研究背景
隨著大型語言模型(LLMs)在自然語言生成領域的廣泛應用,AI 生成內容的可追溯性和版權保護已成為亟待解決的核心問題。基于紅綠表(Red-Green List)機制的水印技術應運而生,通過嵌入可檢測的獨特模式來區分 AI 生成內容與人類創作內容。然而,現有方法普遍面臨一個根本性矛盾:
提升水印有效性往往導致文本質量下降,而降低水印強度又削弱其魯棒性。 |
這種權衡限制了水印技術在實際應用中的效果。主流方法(如 KGW,Kirchenbauer et al., 2023)通常采用固定強度的水印策略,難以動態適應不同上下文中的文本質量需求,整體性能受限。
二、動機 / 切入點
本文作者從理論層面重新建模這一多目標優化問題,揭示了一個關鍵發現:
綠色列表 token 的累積概率(PG)是影響水印效果與文本質量平衡的關鍵因素。
當 PG 較高時,增加水印強度可以帶來更高的綜合收益;而當 PG 較低時,繼續增強水印則會損害文本質量。基于這一理論洞見,作者提出了 MorphMark,一種全新的自適應水印框架。該方法無需訓練輔助模型,而是通過解析公式動態調整水印強度,在保證文本質量的前提下顯著提升水印的檢測能力和抗攻擊能力。
基于此,作者提出了 MorphMark ——一種全新的自適應水印框架。該方法無需訓練任何輔助模型,僅通過解析公式動態調整水印強度,在保證文本質量的同時顯著提升了水印的檢測能力和抗攻擊能力。
圖片
三、方法
MorphMark 的核心思想是根據 綠色列表 token 的累積概率 PG 動態調整水印強度 r:
1當 PG 較高 時,增強水印強度;
1當 PG 較低 時,減弱水印強度。
這一方法確保在高概率 token 區域有效嵌入水印,同時避免在低概率區域引入過度擾動,從而實現更優的水印-質量平衡。
圖片
他的水印強度調整公式如下:
圖片
MorphMark 支持三種變體:
1MorphMark_linear :線性增長函數;
1MorphMark_exp :指數增長函數;
1MorphMark_log :對數增長函數。
四、結果
4.1 主要結果
在多個大型語言模型(OPT-1.3B、OPT-2.7B、OPT-6.7B,Zhang et al., 2022)上,研究團隊系統評估了 MorphMark 的性能。這些模型涵蓋不同參數規模,有助于測試方法的泛化能力。實驗基于 C4 數據集(Raffel et al., 2020)的 400 條樣本,使用前 30 個 token 作為提示,生成至少 200、最多 230 個 token 的輸出。
結果表明,MorphMark 在文本質量保持微優于其他方法的情況下,展現了顯著的水印效力優勢。
圖片
4.2 魯棒性結果
為了全面評估 MorphMark 的魯棒性,本文實施了多種攻擊手段模擬惡意篡改行為,具體包括:Word-S/ 攻擊(隨機替換詞語為 WordNet 中的同義詞,替換比例分別為 10%、30%、50%);Word-SC/ 攻擊(基于上下文替換同義詞);Word-D 攻擊(隨機刪除 30% 的詞語);Doc-P(GPT-3.5)攻擊(使用 GPT-3.5-Turbo 對文本進行重寫);以及 Doc-P(Dipper)攻擊(使用專門的 paraphrasing 模型 Dipper(Krishna et al., 2024)進行文本重寫)。
結果表明,MorphMark 在面對這些攻擊時表現出遠超其他方法的魯棒性。
圖片
4.3 下游任務結果
在機器翻譯和摘要生成任務上,MorphMark 同樣表現穩定。研究采用 BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和 BERTScore(Zhang et al., 2019)等指標評估文本流暢性、準確性和語義一致性。結果顯示,MorphMark 對下游任務的影響與其他方法相近(這是因為本文在實驗中通過控制文本質量相近,以便更準確地評估水印效力),進一步驗證了其在水印效力與文本質量之間的平衡能力。
圖片
本文轉載自????AI-PaperDaily????,作者:AI-PaperDaily
