清華等高校推出首個開源大模型水印工具包MarkLLM,支持近10種最新水印算法
本文由清華大學、上海交通大學、悉尼大學、UCSB、香港中文大學、香港科技大學、香港科技大學(廣州)聯合完成。主要作者包括:潘樂怡(第一作者),清華大學本科生,研究方向為大模型水印等;劉璦瑋,清華大學博士生,研究方向為安全可信大模型等;何志威,上海交通大學博士生,研究方向為大模型水印、大模型智能體等;高梓添,悉尼大學本科生,研究方向為大模型水印;趙宣棟,UCSB博士生,研究方向為可信生成式AI等;胡旭明,香港科技大學/香港科技大學(廣州)助理教授,研究方向為安全可信大模型、信息抽取等;聞立杰, 清華大學長聘副教授,研究方向為流程挖掘,自然語言處理 。
本?介紹由清華等?校聯合推出的?個開源的?模型?印?具包 MarkLLM。MarkLLM 提供了統?的?模型?印算法實現框架、直觀的?印算法機制可視化?案以及系統性的評估模塊,旨在?持研究?員?便地實驗、理解和評估最新的?印技術進展。通過 MarkLLM,作者期望在給研究者提供便利的同時加深公眾對?模型?印技術的認知,推動該領域的共識形成,進?促進相關研究的發展和推?應?。
- 論?名稱:MarkLLM: An Open-Source Toolkit for LLM Watermarking
- 論?鏈接:https://arxiv.org/abs/2405.10051
- 代碼倉庫:https://github.com/THU- BPM/MarkLLM
?模型?印技術的發展現狀 & 仍然?臨的問題
?模型?印是近期新興的?項技術,通過在模型?成?本過程中植?特定的特征,來實現機??本的辨別和來源追溯。它可?于虛假新聞檢測、維護學 術誠信、數據和模型版權保護等場景。
?前主流的?模型?印算法是在?模型推理階段植??印,這類?法主要分為兩?算法家族:
- KGW 家族:通過?預打分向量添加?印,將詞表分為紅綠列表,給綠?詞加偏置,使輸出偏好綠?詞匯;
- Christ 家族:在打分向量?成后,?偽隨機數?預采樣過程,使?印?本與該隨機數更相關,以此植??印。
然?,就像所有新興技術?樣,?語?模型?印技術在使?和理解上也?臨?些挑戰。
1. 如何便捷地使?各個?模型?印算法進??印添加和檢測?
各類?模型?印算法不斷涌現。然?它們的實現?都基于作者??的需求,缺乏統?的類和調?接?設計,使得研究?員和?眾需要投??量精?去使?和復現這些算法。
2. 如何直觀地理解各個?模型?印算法的內部機制?
?模型?印算法的底層機制相對復雜,涉及對?模型?成?本過程中打分向量?成以及采樣過程的?預,不便于研究者和?眾理解。
3. 如何便捷、全?的評估各個?模型?印算法?
評估?度和指標多樣(包含可檢測性、魯棒性、對?本質量的影響等),且?次評估涉及多步驟,全?快速評估算法性能極具挑戰。
MarkLLM:?個開源?模型?印多功能?具包
針對剛才提到的 3 個問題,作者設計并實現了?向?語?模型?印技術的?具包 MarkLLM。
MarkLLM 的主要貢獻可總結如下:
1. 功能?度
- 統?的?模型?印算法實現框架:?持兩個關鍵?印算法家族(KGW 家族和 Christ 家族)的 9 種具體算法。
- ?致、??友好的頂層調?接?:1 ?代碼實現添加?印、檢測?印等各類操作。
- 定制化的?模型?印算法機制可視化解決?案:使??能夠在各種配置下可視化不同?模型?印算法的內部機制。
- 全?、系統的?模型?印算法評估模塊:包含覆蓋 3 個評估?度的共 12 個評估?具,以及兩類?動化評估流?線。
2. 設計?度:模塊化、松耦合架構設計,具有極?的可擴展性和靈活性。
3. 實驗?度:作者? MarkLLM 作為研究?具,對?持的 9 種算法做了 3 個評估?度的全?實驗,在證明 MarkLLM 的實?性的同時,為后續研究提供了寶貴的數據參考。
4. 對開源社區的影響?:MarkLLM 在 GitHub 上線 以來已經獲得了較多關注,?前已有 140+ stars, 并吸引了同?通過 Pull Request 進?代碼貢獻,以及在 issue 欄?進?交流討論。
作者衷?希望 MarkLLM ?具包在為研究?員提供便利的同時,提??眾對?語?模型?印技術的理解和參與度,促進學術界和公眾之間就該技術達成共識,推動?語?模型?印研究和應?的進?步發展,為?語?模型使?安全貢獻?量。
作者真誠歡迎?家提出寶貴意?、相互交流學習, 也?分歡迎通過 pull request 貢獻代碼,通過?家的共同努?維護更好的?模型?印技術?態!