大模型×文本水印：清華、港中文、港科廣、UIC、北郵聯合發布首個大模型時代下的文本水印綜述

作者：機器之心 2024-01-26 16:33:00

本文介紹首個大模型時代下的文本水印綜述，由清華、港中文、港科廣、UIC、北郵聯合發布，全面闡述了大模型時代下文本水印技術的算法類別與設計、評估角度與指標、實際應用場景，同時深入探討了相關研究當前面臨的挑戰以及未來發展的方向，探索文本水印領域的前沿趨勢。

論文：A Survey of Text Watermarking in the Era of Large Language Models
論文鏈接：https://arxiv.org/abs/2312.07913

大模型時代：文本水印新紀元

文本水印是一種信息隱藏技術，起源可以追溯到上個世紀 90 年代。它通過將機密信息（水印）嵌入文本中，實現了在共享水印規則的個體之間進行安全、隱式的消息傳遞。

隨著大語言模型（LLMs）的崛起，文本水印技術煥發新生，涌現出多種可能：

將現有文本水印算法應用于 LLMs？
將 LLMs 運用于文本水印算法設計？
將水印直接植入 LLMs?

特別是隨著 ChatGPT 的出現，文本水印技術更是被推向研究熱潮。本綜述將揭秘 LLMs 與文本水印技術的夢幻聯動，深入探索文本水印新紀元！

1. 文本水印技術保障大模型使用安全

近年來，大語言模型在自然語言處理領域取得顯著進展，但其快速生成文本的能力也帶來了信息傳播和知識產權方面的挑戰。文本水印技術通過嵌入可識別的標記來實現內容追蹤和來源歸屬，是解決大語言模型濫用問題的有效方法。

2. 大模型輔助文本水印算法設計

在文本水印算法設計中一個關鍵挑戰是在不扭曲原始文本的含義或可讀性的情況下嵌入水印。傳統方法通常無法在修改文本時做到較好的語義保持。然而，大語言模型（LLMs）顯著改變了這一格局。由于它們對語義和上下文的精準把握，LLMs 能夠實現精細的水印嵌入方法，對文本的內在含義影響最小化。

3. 大模型 × 文本水印全新探索：水印植入大模型

隨著越來越多的文本直接由大模型生成，研究直接針對大模型的水印技術已經成為一種趨勢。被植入水印的大模型（Watermarked LLMs）可以直接生成水印文本，以從而實現更為直接、快捷的水印嵌入。

文本水印算法大匯總

現有的文本水印算法可以根據植入水印的對象不同分為兩大類：Watermarking for Existing Text，向現有文本中嵌入水印；Watermarking for LLMs，向大模型中植入水印。其中，Watermarking for Existing Text 又可以根據水印規則的不同細粒度地劃分為：

Format-based Watermarking
Lexical-based Watermarking
Syntactic-based Watermarking
Generation-based Watermarking

Watermarking for LLMs 可以根據水印加入的時間劃分為：

Watermarking during LLM Training
Watermarking during Logits Generation
Watermarking during Token Sampling

近期，隨著 LLM 的興起和廣泛使用，Watermarking for LLMs 類別下的研究層出不窮。尤其在 Watermarking for Logits Generation 子類下，更是有許多側重于各個角度的創新方法被提出，例如如何應對低熵文本、如何讓文本攜帶多比特信息、如何高魯棒地應對攻擊者的篡改、如何抵御水印偽造等等。

如何評估一個文本水印算法？

在該綜述中，作者系統性地將文本水印算法的評估總結為四個角度：Success Rate（成功率）、Text Quality（文本質量）、Robustness（魯棒性）、Unforgeability（不可偽造性）。

Success Rate：檢測水印信息的準確性
Text Quality：水印算法對文本質量的影響
Robustness：應對 “水印移除攻擊” 的魯棒性
Unforgeability：抵制水印偽造的能力

作者還對每個評估角度下現有的評估指標做了全面的總結。

1. Success Rate（成功率）：對于零比特水印算法（Zero-bit），檢測過程等價于一個二分類問題，評估指標包括 F1、TPR、FPR、TNR、FNR 等；對于多比特水印算法（Multi-bit），則需要考慮文本水印算法能夠攜帶的負載量（Payload），同時在檢測時需要關注比特正確率（Bit Accuracy）。

2. Text Quality（文本質量）：評估水印算法對生成文本質量的影響有多種指標，例如 PPL（困惑度）、基于預訓練模型編碼的語義相似度檢測、文本豐富性評估等。此外，還有許多研究在下游的 NLP 傳統任務上對水印文本的質量進行評估。這些下游任務包括：機器翻譯、情感分類、知識理解、代碼生成、文本總結、故事續寫、問答、指令遵循等。

3. Robustness（魯棒性）：用于測試水印算法魯棒性的水印移除攻擊可以分為字符級（character-level）、單詞級（word-level）和文檔級（document-level）三大類。字符級的攻擊方式包括 Homoglyph Attack（同形字符替換攻擊）等，單詞級的攻擊方式包含同義詞替換、Emoji Attack 等，文檔級攻擊包括重寫攻擊、Copy-Paste Attack 等。

4. Unforgeability（不可偽造性）：不可偽造性需要在兩種不同的檢測場景下分別考慮。在私密檢測場景（Private Detection Scenario）下，也就是水印檢測器不公開的情況下，攻擊者只能從生成的文本中尋找蛛絲馬跡，試圖攻破水印規則。這里的攻擊方式包括訓練分類器，以及詞頻分析（Spoofing Attack）等。在公開檢測場景（Public Detection Scenario）下，也就是水印檢測器公開的情況下，攻擊者不僅可以從生成的文本中尋找線索，還可以通過分析檢測器的結構和算法來反推生成器的設計。這里的攻擊方式在私密場景攻擊方式的基礎上，還包括逆向工程（Reverse Training）等等。

此外，作者還整理了現有的文本水印算法在這四個評估角度下做出的優化嘗試，▲代表基礎優化目標，● 代表首要優化目標，○ 代表次要優化目標。

文本水印技術的應用場景

大模型時代下，文本水印技術的應用場景得到了進一步的拓廣。本綜述關注了新紀元下文本水印技術的三大應用場景：版權保護、學術誠信和虛假新聞檢測。

1. 版權保護：文本水印在保護文本 / 數據集版權以及保護大模型版權上發揮了至關重要的作用。

文本 / 數據集版權保護：在數字時代，隨著數據的共享和利用不斷增加，保護這些資產免受非法復制和濫用的影響變得至關重要。文本水印技術通過在文本和數據集中嵌入不可察覺的標記，有助于維護知識產權。
大模型版權保護：大模型版權保護的關鍵目標是防御抽取攻擊，即從 LLMs 中提取大量數據用于訓練新模型。通過在 LLMs 的輸出中嵌入水印，使用帶水印的數據集進行訓練后得到的新模型也會帶有水印特征。當前的研究工作已經為各種 LLM 類型開發了水印算法，包括嵌入式（輸入是文本，輸出是該文本的相應嵌入）、生成式（目前最常用的 LLM，其輸入和輸出都是文本）和分類式（輸入是文本，輸出是特定的類別）的 LLM。

2. 學術誠信：在當今的教育領域，學術誠信問題尤為重要。尤其是考慮到 LLMs 的輕松獲取和使用，學生可能會利用這些先進的模型完成作業、論文，甚至參加考試，這給維護學術誠信帶來了新的挑戰。在需要學生獨立和原創完成的任務或考試中，有必要制定方法來判定提交的內容是否由 LLMs 生成。文本水印技術通過在 LLMs 的輸出中嵌入隱式的水印特征，可以高效地檢測機生文本，為維護學術誠信做出貢獻。

3. 虛假新聞檢測：隨著 LLMs 技術的興起，它在創建令人信服但有潛在錯誤或誤導性內容上信手拈來，這使 LLMs 成為制造虛假新聞的有效工具，從而欺騙公眾并扭曲事實。在數字時代下，這些虛假信息在數字平臺上的迅速繁衍加劇了錯誤觀點的傳播，侵蝕了公眾對可靠信息源的信任。因此，識別由 LLMs 生成的新聞至關重要。文本水印技術通過在 LLMs 的輸出中嵌入隱式的水印特征，可以高效地檢測機生新聞，為維護新聞的真實和純凈做出貢獻。

挑戰與機遇并存：

大模型時代下的文本水印技術將何去何從？

在本綜述中，作者以前瞻性的眼光分析了大模型時代下文本水印技術仍然面臨的挑戰，給出了未來可能的發展方向，對文本水印技術的前沿趨勢做出了深度探索。

1. 探索平衡不同評估角度的文本水印算法

如上文提到的那樣，評估一個文本水印算法可以有不同的視角。然而，這些視角通常存在固有的矛盾，使得一個文本水印算法難以同時在所有評估視角中表現優異。例如，在高負載情況下實現成功率、文本質量和魯棒性之間的良好平衡是困難的。

平衡負載、魯棒性和文本質量：關鍵主要在于設計更有效的策略來劃分水印文本空間。這可能需要額外的設計來對抗潛在的水印去除攻擊，將水印空間劃分為不同的水印消息域，確保在不同水印消息域之間過渡需要足夠數量的水印去除攻擊操作。其次，從負載的角度來看，可以從糾錯碼的概念中汲取靈感，例如利用漢明碼，以提高從部分修改的文本中恢復原始水印信息的概率。這些方法可以有效增強負載和魯棒性，同時對文本質量產生一致的影響。
增強文本水印的不可偽造性：通常需要利用密碼學、信息理論和機器學習等領域的專業知識。這涉及增加水印算法的復雜性，以提高其抵抗偽造的能力。盡管當前的方法取得了一些進展，但它們更為復雜的設計仍引入了額外的非魯棒因素。此外，這些方法尚未在具有更大負載的場景中推廣應用。

2. 探索適應更具挑戰性實用場景的文本水印算法

水印算法在簡單環境中表現良好，但在面對低熵和公開檢測情境時需要進一步改進。低熵情境下，由于文本多樣性和復雜性較低，嵌入水印而不影響嚴格格式要求具有挑戰性。在公開檢測情境中，水印的存在和檢測機制公開可見，要求算法足夠復雜和不可預測，同時保持生成方法的安全性和實用性。未來的方法可能涉及更精密的加密和機器學習技術。

3. 制定更全面的評估基準

目前文本水印基準研究主要關注文本質量，對其他關鍵指標如高成功率、魯棒性和防偽性的基準較為有限。因此，未來的重要方向之一是建立更全面的基準系統。構建這樣的基準需要考慮各種應用場景、攻擊方法和不同水印算法的特征，同時確保建立一個公平、透明、用戶友好的評估過程，使研究人員能夠在統一標準下測試和比較算法。這一基準系統將推動學術研究和幫助行業更好地理解和應用文本水印技術。

4. 拓寬文本水印技術的應用場景

盡管文本水印技術在多個領域展示了其實用性，但要實現更廣泛的應用還需要進一步努力。這不僅包括水印技術的進步，還涉及技術領域以外的因素，包括 LLM 提供者的參與、公眾信任和透明度等。

LLM 提供者的參與：隨著大型語言模型生成大量文本，有必要將文本水印功能整合到它們的服務中促進文本水印的使用。然而，目前這些提供商在文本水印技術上的參與不足，受到技術和非技術因素的制約。現有算法需要更全面地考慮對文本質量的影響，未來的研究應重點關注提供商直接受益的領域，如保護模型版權。
公眾信任和透明度：公眾信任和透明度是推動文本水印技術廣泛應用的關鍵因素。只有當公眾信任文本水印算法并相信其檢測結果準確時，它們才能在實際應用中發揮作用。為增強公眾信任，需要確保水印技術的透明度和可靠性。全面披露文本水印檢測算法的細節是關鍵步驟，透明度不僅培養用戶信任，還推動了學術和工業的發展。引入獨立第三方平臺進行檢測和驗證可以加強信任，政府和監管準則有助于確保技術的公正和透明度，提高公眾信心。

結語

本綜述深入探討了在 LLMs 時代下文本水印技術的發展現狀，全面總結了其算法設計與實現、評估角度與方法、在版權保護、學術誠信和假新聞檢測等領域的應用，以及該領域的挑戰和未來方向。作者熱切歡迎學術界和行業專家就大模型時代下文本水印的研究議題進行廣泛的交流和討論。希望這不僅僅是一份綜述論文，更是一個激發深入思考與廣泛交流的契機。

責任編輯：張燕妮來源：機器之心

模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看