從“源頭”保護數據安全:騰訊安全推出大模型隱私保護脫敏技術
大模型已經被廣泛應用在各類場景,幫助人們進行報告摘要、文本翻譯、數據分析、業務風控等各項工作,極大地提升了工作效率,但同時公眾對于大模型帶來的數據泄露的隱憂也從未停止。
近日,騰訊安全玄武實驗室披露了一項關于大模型隱私保護的安全脫敏與還原(Hide and Seek, HaS)技術,有望幫助大模型產品使用者從本地終端側防范隱私數據泄露。
HaS為業內首個支持信息還原的自由文本脫敏技術,通過對用戶上傳給大模型的prompt(提示詞)進行隱私信息脫敏,并在大模型返回計算結果后進行恢復,該方案兼顧了隱私安全和計算資源消耗:脫敏與還原算法經過4bit量化后權重文件僅500MB,可在手機、 PC等終端上部署。
這是業內首個公開發布的、能被大模型用戶部署于終端側的隱私保護脫敏技術。借助這一技術,用戶可以從“源頭”免除使用云端大模型帶來的數據泄露方面的擔憂。
據悉,這個模型主要適用于典型的NLP任務場景,例如機器翻譯、文本摘要,文本潤色、閱讀理解、文本分類、情感分析等,其主要的技術難點在于如何解決實體識別與替換、實體指代消解、多義詞識別、自糾錯魯棒性還原、實體翻譯等。此前,不少大模型提供方以及專業安全廠商均在積極進行相關的嘗試,但目前尚未有理想的解決方案。
“在大模型應用中提示詞是一種自由文本,而針對自由文本的隱私保護問題,一種全密態的解決方案是通過安全多方計算(Multi-Party Computation, MPC)協議實現安全推理。然而,MPC協議在計算成本和通信量上的高需求嚴重限制了其在大模型應用中的落地。”騰訊安全玄武實驗室高級安全工程師陳昱表示,“實際上,多數場景下用戶并不需要保護整句的信息不泄漏,而僅需要保護其中的隱私實體不泄漏。”玄武實驗室經過正則匹配、近義詞向量、BERT NER+CR等方法的不斷探索試錯后,最終提出了這項技術。
實驗表明,HaS的數據脫敏處理并不會對任務造成影響。在使用模型進行隱私保護與直接調用大模型相比“分類任務”與“翻譯任務”兩個場景的性能對比,在使用560M生成式方案下,文本分類任務的性能不僅沒有下降,反而增加了0.14%;在1.7B標簽式方案下,機器翻譯任務性能僅下降了0.85%。
騰訊安全玄武實驗室將上述研究發現以論文形式發布,更多技術細節可參考玄武官方博客(見文章最后)。
“一些企業或者個人用戶開發者通過部署本地大模型來規避隱私數據泄露,但這要求一定的技術門檻,對于重度隱私需求的用戶來說,通過本地安全模型/算法來實現數據保護,可能是更可行的辦法。”玄武實驗室正在逐步豐富這一模型的應用覆蓋面,并完善其部署和交付方式,以供企業用戶和個人用戶在未來能夠便捷使用。
數據如今在社會生活生產中扮演越來越重要的角色,數據安全也始終是產業數字化進程的核心議題。騰訊安全持續致力于解決數據安全問題,護航各行各業產業升級。
詳細技術報告地址: