深度探索:LLaMa-3 網絡安全能力全解析
隨著人工智能技術的迅速發展,大模型在處理各種復雜任務中展示出了卓越的能力。特別是在網絡安全領域,大模型的應用潛力巨大,它們可以幫助自動化處理大量數據、識別潛在威脅和提供安全建議。
然而,新型大模型層出不窮,要有效利用這些模型,首先必須驗證它們在理解和處理網絡安全相關問題上的能力。
4 月 19 日凌晨,Meta 開源了新一代 LLaMa-3 模型。作為當前最受矚目的大語言模型之一,LLaMa-3 在網絡安全領域的表現到底怎樣?如何將 LLaMa-3 這樣的新型大模型快速應用到網絡安全問題解決中?
騰訊朱雀實驗室和騰訊安全科恩實驗室基于自研的網絡安全大模型評測平臺 SecBench,對 LLaMa-3 在網絡安全領域的能力表現進行了全面評測。
SecBench:評測網絡安全大模型的新基準
SecBench 積累了行業獨有的安全評測數據集,覆蓋多題型、多任務,支持從能力、語言、領域、安全證書模擬考試等多個維度對大模型的網絡安全能力進行評估。
同時,SecBench 構建了方便快捷的評測框架,支持不同數據、不同模型快速接入評測,輸出評測結果。
??https://secbe??nch.org/
LLaMa-3 網絡安全能力評測結果分析
SecBench 對 LLaMa-3 小參數量模型進行了全面評測,同時與上一代 LLaMa-2 進行了對比。綜合來看,LLaMa-3 的網絡安全能力相較于上一版本有顯著提升。
能力維度
能力維度主要從大模型通用能力的視角,評估大模型對網絡安全知識的記憶能力、邏輯推理能力和理解表達能力。在網絡安全綜合能力上,LLaMa-3 相較于 LLaMa-2 有較大提升(相對提升>44%);從各個細分能力維度上看,如對網絡安全知識的記憶能力、邏輯推理能力、理解表達能力等,LLaMa-3 也有較明顯的提升。特別是在對網絡安全知識的理解表達能力上,Llama-3-8B-Instruct 模型提升最為明顯。
語言維度
語言維度主要評估大模型對不同語言的網絡安全知識的學習理解能力,目前覆蓋中文和英文兩種主流語言。在語言維度的測試中,LLaMa-3 相較于 LLaMa-2 同樣有較大提升。同時,可以看出,前后兩個版本的模型在英文上的能力表現都優于中文。
領域維度
領域維度從垂類安全視角,評估大模型對網絡安全九個子領域問題的解決能力。細分到網絡安全各個領域,Llama-3-8B 和Llama-3-8B-Instruct 綜合能力表現相當,在“云安全”和“應用安全”兩個子領域表現最佳。
安全證書考試模擬評估
安全證書考試模擬評估是 SecBench 的特色能力,支持使用信息系統審計、云安全認證、云計算安全管理等經典證書考試模擬試題,評測大模型通過安全證書考試的能力。從安全證書模擬評估上來看,LLaMa-3 已經可以通過滲透測試和信息系統審計兩類模擬評估測試,相對于 LLaMa-2 的全部不及格也有明顯改善。雖然 LLaMa-3 仍然有部分安全證書模擬考試不及格,但從分數上看,LLaMa-3 相較于 LLaMa-2 還是有很大程度上的提升。
問題示例:
Llama-3-8B-Instruct 安全證書模擬評估結果:
Llama-3-8B 安全證書模擬評估結果:
Llama-2-7B-Chat 安全證書模擬評估結果:
Llama-2-7B 安全證書模擬評估結果:
綜合來看,LLaMa-3 小參數量模型的網絡安全能力相較于上一版本有明顯提升,但對比 Claude-3-Opus、GPT-4 等行業頭部大模型還有較大差距。Claude-3-Opus 與 GPT-4 在網絡安全上的綜合得分分別高達 0.816 和0.7984(更多排名請參考:secbench.org),對于幾類安全證書模擬評估也可以高分通過,LLaMa-3 的網絡安全能力還有較大提升空間。
本文轉載自司南 ??司南評測體系??,作者: OpenCompass
