[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境

AIPaperDaily

發布于 2025-5-23 06:39

瀏覽

0收藏

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

論文：MorphMark: Flexible Adaptive Watermarking for Large Language Models

鏈接：https://arxiv.org/abs/2505.11541

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

一、研究背景

隨著大型語言模型（LLMs）在自然語言生成領域的廣泛應用，AI 生成內容的可追溯性和版權保護已成為亟待解決的核心問題。基于紅綠表（Red-Green List）機制的水印技術應運而生，通過嵌入可檢測的獨特模式來區分 AI 生成內容與人類創作內容。然而，現有方法普遍面臨一個根本性矛盾：

提升水印有效性往往導致文本質量下降，而降低水印強度又削弱其魯棒性。

這種權衡限制了水印技術在實際應用中的效果。主流方法（如 KGW，Kirchenbauer et al., 2023）通常采用固定強度的水印策略，難以動態適應不同上下文中的文本質量需求，整體性能受限。

二、動機 / 切入點

本文作者從理論層面重新建模這一多目標優化問題，揭示了一個關鍵發現：

綠色列表 token 的累積概率（PG）是影響水印效果與文本質量平衡的關鍵因素。

當 PG 較高時，增加水印強度可以帶來更高的綜合收益；而當 PG 較低時，繼續增強水印則會損害文本質量。基于這一理論洞見，作者提出了 MorphMark，一種全新的自適應水印框架。該方法無需訓練輔助模型，而是通過解析公式動態調整水印強度，在保證文本質量的前提下顯著提升水印的檢測能力和抗攻擊能力。

基于此，作者提出了 MorphMark ——一種全新的自適應水印框架。該方法無需訓練任何輔助模型，僅通過解析公式動態調整水印強度，在保證文本質量的同時顯著提升了水印的檢測能力和抗攻擊能力。

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

三、方法

MorphMark 的核心思想是根據綠色列表 token 的累積概率 PG 動態調整水印強度 r：

1當 PG 較高時，增強水印強度；

1當 PG 較低時，減弱水印強度。

這一方法確保在高概率 token 區域有效嵌入水印，同時避免在低概率區域引入過度擾動，從而實現更優的水印-質量平衡。

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

他的水印強度調整公式如下：

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

MorphMark 支持三種變體：

1MorphMark_linear ：線性增長函數；

1MorphMark_exp ：指數增長函數；

1MorphMark_log ：對數增長函數。

四、結果

4.1 主要結果

在多個大型語言模型（OPT-1.3B、OPT-2.7B、OPT-6.7B，Zhang et al., 2022）上，研究團隊系統評估了 MorphMark 的性能。這些模型涵蓋不同參數規模，有助于測試方法的泛化能力。實驗基于 C4 數據集（Raffel et al., 2020）的 400 條樣本，使用前 30 個 token 作為提示，生成至少 200、最多 230 個 token 的輸出。

結果表明，MorphMark 在文本質量保持微優于其他方法的情況下，展現了顯著的水印效力優勢。

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

4.2 魯棒性結果

為了全面評估 MorphMark 的魯棒性，本文實施了多種攻擊手段模擬惡意篡改行為，具體包括：Word-S/ 攻擊（隨機替換詞語為 WordNet 中的同義詞，替換比例分別為 10%、30%、50%）；Word-SC/ 攻擊（基于上下文替換同義詞）；Word-D 攻擊（隨機刪除 30% 的詞語）；Doc-P（GPT-3.5）攻擊（使用 GPT-3.5-Turbo 對文本進行重寫）；以及 Doc-P（Dipper）攻擊（使用專門的 paraphrasing 模型 Dipper（Krishna et al., 2024）進行文本重寫）。

結果表明，MorphMark 在面對這些攻擊時表現出遠超其他方法的魯棒性。

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片

4.3 下游任務結果

在機器翻譯和摘要生成任務上，MorphMark 同樣表現穩定。研究采用 BLEU（Papineni et al., 2002）、ROUGE（Lin, 2004）和 BERTScore（Zhang et al., 2019）等指標評估文本流暢性、準確性和語義一致性。結果顯示，MorphMark 對下游任務的影響與其他方法相近（這是因為本文在實驗中通過控制文本質量相近，以便更準確地評估水印效力），進一步驗證了其在水印效力與文本質量之間的平衡能力。

[ACL 2025] 清華&港中文提出 MorphMark：全新理論視角破解大模型水印效力與文本質量的兩難困境-AI.x社區圖片