Semgrep代碼靜態(tài)分析工具:使用Docker進(jìn)行簡單查詢
靜態(tài)分析是一個(gè)非常有用的工具,使用它可以幫助開發(fā)者或者安全人員在開發(fā)階段就能發(fā)現(xiàn)代碼中存在的bug和安全問題。靜態(tài)分析是一個(gè)綜合性和系統(tǒng)性的工程,對于每一個(gè)開發(fā)者和安全人員來說了解其原理,并能使用工具進(jìn)行初步的分析很有必要。本文我們介紹一個(gè)開源的快速高效的多語言靜態(tài)分析工具Semgrep,通過在Docker中設(shè)置基本Semgrep環(huán)境,并用一些簡單的例子說明其用法。

概述
諸如pylint的Python或eslint的JavaScript之類的linter非常適合通用的廣泛語言標(biāo)準(zhǔn)。但是代碼審查中的常見問題呢,例如使用打印語句而不是記錄程序,或者在for循環(huán)(特定于Go)中使用defer語句,或者多層嵌套循環(huán)等。
大多數(shù)開發(fā)人員沒有使用語言解析的經(jīng)驗(yàn)。因此,在中小型團(tuán)隊(duì)中看到自定義Lint規(guī)則并不常見。盡管沒有哪一種Linter或語言比其他Linter復(fù)雜得多(全都是AST操作),但是學(xué)習(xí)每種語言Linter的AST和框架要付出很小的代價(jià)。
semgrep規(guī)則的一個(gè)優(yōu)點(diǎn)是,可以學(xué)習(xí)semgrep模式匹配語法(這非常簡單),然后可以為想要為其編寫規(guī)則的任何語言編寫規(guī)則。
Semgrep使用代碼的標(biāo)準(zhǔn)表達(dá)進(jìn)行模式匹配,而無需復(fù)雜的查詢或者正則。可用于在DevSecOps各個(gè)階段:代碼編寫,代碼提交或者CI運(yùn)行時(shí)發(fā)現(xiàn)Bug和漏洞。其精確的規(guī)則看起來就像要搜索的代碼,無需遍歷抽象語法樹或與正則表達(dá)式死扛。與傳統(tǒng)的正則表達(dá)式(和傳統(tǒng)的grep)不同,它可以找到遞歸模式。這使其特別有用,可以作為學(xué)習(xí)查找任何語言模式的工具。
Semgrep還支持容器化方式部署和運(yùn)行,由emgrep官方注冊表中,有Semgrep社區(qū)維護(hù)的包安全性,正確性,性能,代碼質(zhì)量和Bug等各方面的1000多規(guī)則可直接拿來使用。
Semgrep軟件安全公司r2c開發(fā)并提供商業(yè)支持。目前已經(jīng)有大量的企業(yè)用于生產(chǎn)環(huán)境中,也有很多工具比如NodeJsScan之類底層支持引擎。
基本準(zhǔn)備
本文中我們所有的例子都需要運(yùn)行docker,并基于semgrep基本鏡像returntocorp/semgrep。docker安裝和配置過程我們不在介紹,首先從docker官方拉一個(gè)最新的鏡像備用:
- docker pull returntocorp/semgrep:latest
semgrep有應(yīng)在線工具(semgrep.dev/editor/),如果沒有docker環(huán)境的同學(xué),可以通過在線工具嘗試?yán)印?/p>
在PHP中發(fā)現(xiàn)eval語句
假如希望腳本在PHP中使用eval函數(shù)時(shí)候告警:
php/test.php
- <?php
- $var = "var";
- if (isset($_GET["arg"]))
- {
- $arg = $_GET["arg"];
- eval("\$var = $arg;");
- echo "\$var =".$var
- eval(
- bar
- );
- # eval(foo)
- echo(eval("\$var = $arg;"));
- }
semgrep所有運(yùn)行依賴于一個(gè)yml的配置文件config.yml,基本規(guī)則如下:
rules:
- - id: cc-1
- pattern: |
- exec(...)
- message: |
- severity: WARNING
- 我們可以在message部分增加警告的內(nèi)容:
- rules:
- - id: cc-1
- pattern: |
- exec(...)
- message: |
- 使用了不安全的exec函數(shù)
- severity: WARNING
配置部分還要增加兩個(gè)規(guī)則對象中包括兩個(gè)鍵:mode和languages。
- rules:
- - id: my_pattern_id
- pattern: |
- exec(...)
- message: |
- severity: WARNING
- mode: search
- languages: ["generic"]
languages部分可以設(shè)置具體語言比如php或者用generic。如果設(shè)置了具體語言會(huì)對其做語法簡單,如果語法檢查不通過則不會(huì)執(zhí)行搜索。我們通過以下語句運(yùn)行semgrep Docker映像:
- docker run -v "${PWD}:/src" returntocorp/semgrep --config=config.yml php
發(fā)現(xiàn)4個(gè)語句中使用了eval,也包括我們注釋掉的語句。
對比language設(shè)置為php時(shí)候的運(yùn)行:

有錯(cuò)誤,我們增加參數(shù)—verbose,以獲得更詳細(xì)的錯(cuò)誤信息:

應(yīng)該我們第7行少了個(gè)分號,導(dǎo)致語法錯(cuò)誤。我們修改此語法錯(cuò)誤,再運(yùn)行:
發(fā)現(xiàn)了三個(gè)語句,注釋部分自動(dòng)給去除了。
發(fā)現(xiàn)三重嵌套循環(huán)
下一個(gè)例子,我們使用一個(gè)稍微負(fù)載點(diǎn),在golang代碼查找一個(gè)三重嵌套的循環(huán),代碼(golang/test1.go):
- package main
- import "log"
- func main() {
- for i := 0; i < 10; i++ {
- log.Print(i)
- for j := 0; j < 100; j++ {
- c := i * j
- going := true
- k := 0
- for going {
- if k == c {
- break
- }
- k++
- log.Print(k)
- }
- }
- }
- }
如果要查找嵌套for循環(huán),則需要搜索由任意語法包圍的循環(huán)。Semgrep的...語法,非常適合,該操作使。我們修改golang搜索配置go-config.yml為:
rules:
- - id: triple-nest-loop
- pattern: |
- for ... {
- ...
- for ... {
- ...
- for ... {
- ...
- }
- ...
- }
- ...
- }
- message: |
- 使用了三層嵌套for循環(huán)
- severity: WARNING
- mode: search
- languages: ["generic"]
運(yùn)行semgrep:
- docker run -v "${PWD}:/src" returntocorp/semgrep --config=go-config.yml golang

靜態(tài)分析的局限性
我們將循環(huán)部分重構(gòu)為函數(shù)調(diào)用,再試試(golang/loopy.go
):
- package main
- import "log"
- func inner(i, j int) {
- c := i * j
- going := true
- k := 0
- for going {
- if k == c {
- break
- }
- k++
- log.Print(k)
- }
- }
- func main() {
- for i := 0; i < 10; i++ {
- log.Print(i)
- for j := 0; j < 100; j++ {
- inner(i, j)
- }
- }
- }
并再次運(yùn)行semgrep:
- docker run -v "${PWD}:/src" returntocorp/semgrep --config=go-config.yml golang

結(jié)果還跟上面的一樣,由于函數(shù)打包,語法上不再顯示為三層循環(huán),所以semgrep匹配不了模式。
使用現(xiàn)有規(guī)則進(jìn)行xss漏洞掃描
我們前面也提到,除了一般掃描外semgrep官方注冊表維護(hù)了大量的規(guī)則,包括基本語法、安全加強(qiáng)、代碼質(zhì)量的規(guī)則,這樣規(guī)則可以直接下載加載,使用方法:
- semgrep --config "規(guī)則"
比如,我們上面第一部分的eval語句,在官方就有一個(gè)對應(yīng)的規(guī)則r/php.lang.security.eval-use.eval-use
我們可以直接運(yùn)行:
- docker run --rm -v "${PWD}:/src" returntocorp/semgrep:latest --config=" r/php.lang.security.eval-use.eval-use
" php,其結(jié)果和第一步分的一樣:

對Web開發(fā)中,最常見的一個(gè)漏洞就是xss漏洞,semgrep也有個(gè)專門xss漏洞掃描的規(guī)則集合p/xss,包括多個(gè)語言的60條規(guī)則。
xss集合的掃碼可以用
- semgrep --config "p/xss"
我們可以直接在docker中使用:
- docker run --rm -v "${PWD}:/src" returntocorp/semgrep:latest --config="p/xss" golang

直接會(huì)從官方注冊表下載規(guī)則,并按使用規(guī)則進(jìn)行掃描,結(jié)果發(fā)現(xiàn)一個(gè)問題,同樣方法,可以利用現(xiàn)有規(guī)則對自己的代碼進(jìn)行掃描。
總結(jié)
學(xué)習(xí)一種語言以高層編寫語法規(guī)則以強(qiáng)制執(zhí)行代碼行為仍然非常有用。semgrep使用通用的語法匹配器可幫助輕松編寫規(guī)則,可以用現(xiàn)有規(guī)則來對自己代碼進(jìn)行掃描。總之,基于Docker運(yùn)行,可以讓你項(xiàng)目的靜態(tài)分析變得非常容易,小伙伴們,路過不要錯(cuò)過,都可以嘗試一下。