使用doop識(shí)別最近c(diǎn)ommons text漏洞的污點(diǎn)信息流

作者：Chen Haojie 2023-05-11 07:42:04

本文基于筆者對doop靜態(tài)程序分析框架源代碼和規(guī)則學(xué)習(xí)，并結(jié)合對目前漏洞公開技術(shù)細(xì)節(jié)的學(xué)習(xí)，修改增強(qiáng)doop app only模式下的分析規(guī)則后，實(shí)現(xiàn)通過doop工具識(shí)別commons text rce漏洞（CVE-2022-42889）。

一、doop靜態(tài)分析框架簡介

1. doop靜態(tài)分析框架簡介

doop靜態(tài)分析框架由希臘雅典大學(xué)plast-lab Yannis Smaragdakis團(tuán)隊(duì)設(shè)計(jì)開發(fā)，目前看是一款開源領(lǐng)域的比較先進(jìn)的程序靜態(tài)分析框架，一些程序靜態(tài)分析論文的理論也有通過doop的規(guī)則實(shí)現(xiàn)后實(shí)驗(yàn)。

doop整體架構(gòu)簡單明了，符合通常靜態(tài)代碼漏洞掃描工具掃描器內(nèi)核的設(shè)計(jì)思路。架構(gòu)上由groovy寫的調(diào)用程序“粘合”在一起，通過調(diào)用fact-generator和datalog分析器，得出自動(dòng)化的分析結(jié)果。

下面是筆者畫的doop整體架構(gòu)圖，包含doop中一些關(guān)鍵的組件模塊：

2. doop工作流程

doop的fact generator模塊會(huì)對輸入進(jìn)行解析（例如jar包的解析或者類的resolve從而加載進(jìn)必要的類信息到內(nèi)存中）
調(diào)用soot、wala等工具生成jimple IR，在此基礎(chǔ)上生成后續(xù)分析引擎需要的facts文件。而后doop使用LogicBlox（目前doop已不維護(hù)）或者Soufflé（開源的datalog分析引擎）
基于facts文件和既定的datalog分析規(guī)則文件進(jìn)行分析，得到最終的程序分析結(jié)果。

doop支持對java源碼及字節(jié)碼的分析，不過源碼的jdk版本受限，建議直接使用字節(jié)碼進(jìn)行分析。

doop核心是其實(shí)現(xiàn)的一套datalog分析規(guī)則，其中包含了由粗糙到精細(xì)的context-insensitive、1-call-site-sensitive、1-call-site-sensitive+heap的豐富的靜態(tài)程序分析策略等等等，同時(shí)通過在addons中添加了額外的對信息流分析、對spring等生態(tài)框架、對java反射特性的支持，十分強(qiáng)大。

以上是對doop的架構(gòu)和功能的簡單介紹，jar包信息的解析、規(guī)則的預(yù)處理、編譯執(zhí)行和解釋執(zhí)行、程序的并發(fā)設(shè)計(jì)或者由于大量sootclass加載造成的內(nèi)存溢出問題等一些細(xì)節(jié)由于篇幅限制不在此介紹。

二、commons text rce漏洞簡介

先對該漏洞進(jìn)行簡單介紹。

Apache Commons Text是一款處理字符串和文本塊的開源項(xiàng)目，之前被披露存在CVE-2022-42889遠(yuǎn)程代碼執(zhí)行漏洞，這個(gè)漏洞目前網(wǎng)上的分析文章比較多，在此不做復(fù)述。該漏洞原理上有點(diǎn)類似log4j2，當(dāng)然影響不可相比，其代碼中存在可以造成代碼執(zhí)行的插值器，例如ScriptStringLookup（當(dāng)然這里提到這個(gè)插值器是因?yàn)槲覀兡繕?biāo)就是分析這一條sink污點(diǎn)流），同時(shí)沒有對輸入字符串的安全性進(jìn)行驗(yàn)證導(dǎo)致問題。

借用網(wǎng)上公開的poc觸發(fā)ScriptStringLookup中的代碼執(zhí)行，使用commons text 1.9版本：

完整的漏洞調(diào)用棧如下：

從調(diào)用棧可以看出，通過調(diào)用commons text的字符串替換函數(shù)，可以調(diào)用到ScriptStringLookup類的lookup方法，從而調(diào)用scriptEngine.eval執(zhí)行代碼。可以看出該條漏洞鏈路較淺，但鏈路關(guān)鍵節(jié)點(diǎn)也涉及了接口抽象類的cast、輸入字符串的詞法分析狀態(tài)機(jī)以及各種字符串的處理函數(shù)，作為實(shí)驗(yàn)對象非常合適。

三、commons text rce污點(diǎn)信息流的doop識(shí)別規(guī)則

我們選取上述二中commons text中

org.apache.commons.text.StringSubstitutor replace函數(shù)作為source，ScriptEngine eval函數(shù)作為sink。

doop設(shè)置app only模式去進(jìn)行分析，doop在app only模式下會(huì)將!ApplicationMethod(?signature)加入isOpaqueMethod(?signature)，這樣一些分析不會(huì)進(jìn)入jdk的類中，可以大大提高doop的分析效率。依據(jù)萊斯定理，靜態(tài)程序分析難以達(dá)到完全的完備(truth或者perfect)，也是盡可能優(yōu)化sound。類似在企業(yè)級的SAST部署使用也是如此，也需要在掃描精度、掃描速度以及實(shí)際可用性中進(jìn)行取舍或者平衡，所以doop的app only模式下在個(gè)人看來更接近實(shí)際嵌入到devsecops中的輕量級靜態(tài)代碼漏洞掃描的應(yīng)用。

3.1 doop的datalog分析規(guī)則簡單介紹

由于涉及doop app only規(guī)則的改造，首先先簡單介紹doop使用的datalog規(guī)則。

doop目前維護(hù)使用開源的Soufflé分析datalog規(guī)則。datalog是聲明式的編程語言，也是prolog語言的非圖靈完備子集，所以本質(zhì)上也是建立在形式邏輯中的一階邏輯上。所以基礎(chǔ)概念也是命題推導(dǎo)，在Soufflé的形式上就是表現(xiàn)為關(guān)系（relation）。

如下例子：

很明顯可以看出該例子通過datalog定義的關(guān)系邏輯實(shí)現(xiàn)相等關(guān)系的自反性、對稱性和傳遞性，首先定義了equivalence關(guān)系，該關(guān)系可以由rel1和rel2關(guān)系蘊(yùn)涵得到，而equivalence的a需要滿足關(guān)系rel1，b需要滿足關(guān)系rel2。具體語法和高階特性可以通過souffle-lang.github.io網(wǎng)站進(jìn)行了解。

3.2 doop配置使用簡單介紹

doop可以通過gradle去編譯使用，需要提前在類unix系統(tǒng)中借助cmake編譯安裝Soufflé，doop的具體安裝使用可以在https://github.com/plast-lab/doop-mirror中了解。

對doop的命令行使用進(jìn)行簡單，分析，有幾個(gè)關(guān)鍵的命令參數(shù)，-i參數(shù)接受需要分析的文件（例如jar包），-a參數(shù)配置分析策略（例如是選擇context sensitive還是context insensitive），--app-only參數(shù)配置開啟doop的app only模式，--information-flow開啟doop的信息流分析模式（可以用來做污點(diǎn)分析），--platform設(shè)置分析需要的jdk平臺(tái)，--fact-gen-cores配置生成facts的并發(fā)性。

本文使用的doop命令參數(shù)：

-a context-insensitive --app-only --information-flow spring --fact-gen-cores 4 -i docs/commons-text.jar --platform java_8 --stats none

3.3 重新編譯打包c(diǎn)ommons text

這是我最初使用doop分析commos text的方法，主要為了盡可能減輕的對原生規(guī)則的侵入。doop在使用jackee進(jìn)行分析事，分析入口的確定及一些mockobject的構(gòu)建都需要依賴于對springmvc注解的識(shí)別。

下載commons text的源碼，自定義兩條class和method注解TestctxTaintedClassAnnotation、TestctxTaintedParamAnnotation：

注解實(shí)現(xiàn)為一個(gè)空注解，主要是為了標(biāo)注一下我們的source，將注解打到對應(yīng)的class類和方法：

重新編譯打包為jar包，得到2中命令參數(shù)-i的commons-text.jar。

3.4 改造doop app only下的規(guī)則

doop的污點(diǎn)信息流識(shí)別依賴于指針分析結(jié)果，同時(shí)也依賴污點(diǎn)轉(zhuǎn)移函數(shù)。doop中已經(jīng)預(yù)置了多條污點(diǎn)轉(zhuǎn)移函數(shù)，其中包含了字符串、鏈表、迭代器等基礎(chǔ)類方法。

ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(java.lang.Object)>").
ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(java.lang.String)>").
ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(java.lang.StringBuffer)>").
ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(java.lang.CharSequence)>").
ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(char[])>").
ParamToBaseTaintTransferMethod(0, "<java.lang.StringBuffer: java.lang.StringBuffer append(char)>").
BaseToRetTaintTransferMethod("<java.lang.Float: float floatValue()>").
BaseToRetTaintTransferMethod("<java.lang.String: byte[] getBytes(java.lang.String)>").
BaseToRetTaintTransferMethod("<java.lang.String: char charAt(int)>").
BaseToRetTaintTransferMethod("<java.util.Enumeration: java.lang.Object nextElement()>").
BaseToRetTaintTransferMethod("<java.util.Iterator: java.lang.Object next()>").
BaseToRetTaintTransferMethod("<java.util.LinkedList: java.lang.Object clone()>").
BaseToRetTaintTransferMethod("<java.util.LinkedList: java.lang.Object get(int)>").
BaseToRetTaintTransferMethod("<java.util.Map: java.util.Set entrySet()>").
BaseToRetTaintTransferMethod("<java.util.Map$Entry: java.lang.Object getValue()>").
BaseToRetTaintTransferMethod("<java.util.Set: java.util.Iterator iterator()>").
BaseToRetTaintTransferMethod("<java.lang.String: char[] toCharArray()>").
BaseToRetTaintTransferMethod("<java.lang.String: java.lang.String intern()>").

然而其中沒有包含String split函數(shù)的污點(diǎn)轉(zhuǎn)移規(guī)則，需要添加上：

BaseToRetTaintTransferMethod("<java.lang.String: java.lang.String[] split(java.lang.String,int)>").

如上述，doop自有的jackee規(guī)則肯定沒有包含我們自定義的注解，所以需要在EntryPointClass、Mockobj等關(guān)系定義中添加對我們自定義的class污點(diǎn)注解的識(shí)別。

EntryPointClass(?type) :-
   //...
   Type_Annotation(?type, "org.apache.commons.text.TestctxTaintedClassAnnotation");
//...
MockObject(?mockObj, ?type) :-
  //...
   Type_Annotation(?type, "org.apache.commons.text.TestctxTaintedClassAnnotation");

同時(shí)也需要添加param污點(diǎn)的注解。doop需要通過這些注解識(shí)別分析入口方法，構(gòu)建污點(diǎn)mockobj，建立初始的指向關(guān)系等。

//...
mainAnalysis.VarPointsTo(?hctx, cat(cat(cat(cat(?to, "::: "), ?type), "::: "), "ASSIGN"), ?ctx, ?to) :-
  FormalParam(?idx, ?meth, ?to),
  (Param_Annotation(?meth, ?idx, "org.springframework.web.bind.annotation.RequestParam");
  Param_Annotation(?meth, ?idx, "org.springframework.web.bind.annotation.RequestBody");
  Param_Annotation(?meth, ?idx, "org.apache.commons.text.TestctxTaintedParamAnnotation");

為了確保方法的可達(dá)性，我們還添加了

ImplicitReachable("") :- isMethod("").但后續(xù)看不一定有必要，僅供參考。

通過注解我們在規(guī)則中定義了source，接下來需要定義sink，我們將ScriptEngine的eval方法定義為sink：

LeakingSinkMethodArg("default", 0, method) :- isMethod(method), match("<javax.script.ScriptEngine: java.lang.Object eval[(].*[)]>", method).

正如前述，由于是在app only下，doop下通過OpaqueMethod關(guān)系過濾了jdk類的識(shí)別，這樣會(huì)導(dǎo)致相應(yīng)的上述預(yù)置的污點(diǎn)轉(zhuǎn)移函數(shù)無法完成污點(diǎn)轉(zhuǎn)移，所以需要另外定制規(guī)則流去將轉(zhuǎn)移函數(shù)包含進(jìn)數(shù)據(jù)流分析過程。

于是需要定義

OptTaintedtransMethodInvocationBase關(guān)系。

.decl OptTaintedtransMethodInvocationBase(?invocation:MethodInvocation,?method:Method,?ctx:configuration.Context,?base:Var)
OptTaintedtransMethodInvocationBase(?invocation,?tomethod,?ctx,?base) :-
  ReachableContext(?ctx, ?inmethod),
//Reachable(?inmethod),
  Instruction_Method(?invocation, ?inmethod),
  (
  _VirtualMethodInvocation(?invocation, _, ?tomethod, ?base, _);
  _SpecialMethodInvocation(?invocation, _, ?tomethod, ?base, _)
  ).

在此基礎(chǔ)上，為了完成新的污點(diǎn)轉(zhuǎn)移，doop需要根據(jù)以下自定義規(guī)則分析出返回值的類型信息。

.decl MaytaintedInvocationInfo(?invocation:MethodInvocation,?type:Type,?ret:Var)
MaytaintedInvocationInfo(?invocation, ?type, ?ret) :-
  Method_ReturnType(?method, ?type),
  MethodInvocation_Method(?invocation, ?method),
  AssignReturnValue(?invocation, ?ret).
.decl MaytaintedTypeForReturnValue(?type:Type, ?ret:Var, ?invocation:MethodInvocation)
MaytaintedTypeForReturnValue(?type, ?ret, ?invocation) :-
  MaytaintedInvocationInfo(?invocation, ?type, ?ret),
  !VarIsCast(?ret).

基于以上的污點(diǎn)轉(zhuǎn)移過程分析規(guī)則，應(yīng)用到污點(diǎn)變量的轉(zhuǎn)移分析規(guī)則中。

VarIsTaintedFromVar(?type, ?ctx, ?ret, ?ctx, ?base) :-
  //mainAnalysis.OptTaintedtransMethodInvocationBase(?invocation,?method,?base),
  mainAnalysis.OptTaintedtransMethodInvocationBase(?invocation,?method,?ctx,?base),
  MaytaintedTypeForReturnValue(?type, ?ret, ?invocation),
  BaseToRetTaintTransferMethod(?method).
  //mainAnalysis.VarPointsTo(_, _, ?ctx, ?base).

同時(shí)也需要重新定義LeakingSinkVariable關(guān)系，因?yàn)槲覀冞@里自定義的sink方法也是Opaque方法，這樣才能識(shí)別到我們的ScriptEngine 的eval方法。

LeakingSinkVariable(?label, ?invocation, ?ctx, ?var) :-
  LeakingSinkMethodArg(?label, ?index, ?tomethod),
  mainAnalysis.OptTaintedtransMethodInvocationBase(?invocation,?tomethod,?ctx,?base),
  //mainAnalysis.VarPointsTo(_, _, ?ctx, ?base),//here problem
  ActualParam(?index, ?invocation, ?var).

從上面規(guī)則的定義可以看出，改造的流程還是比較清晰的，并且通過關(guān)系的名字，這些關(guān)系的含義和用途也很容易理解。添加這些自定義規(guī)則到我們的doop分析中運(yùn)行，在結(jié)果中可以看出，doop完成了對commons text的污點(diǎn)信息流的識(shí)別。

在結(jié)果集中的LeakingTaintedInformation.csv文件中可以找到我們需要捕捉到的souce-sink流。

default default <<immutable-context>> <org.apache.commons.text.lookup.ScriptStringLookup: java.lang.String lookup(java.lang.String)>/javax.script.ScriptEngine.eval/0 <org.apache.commons.text.StringSubstitutor: java.lang.String replace(java.lang.String)>/@parameter0

LeakingTaintedInformation.csv給出了污點(diǎn)信息。包括污點(diǎn)的標(biāo)簽（這里是默認(rèn)的default，可以自定義），sink方法的調(diào)用信息，該sink方法對應(yīng)的污點(diǎn)源頭souce信息。

如上圖可以看出，

org.apache.commons.text.lookup.ScriptStringLookup:

java.lang.String lookup(java.lang.String)中調(diào)用到

javax.script.ScriptEngine.eval，并且污點(diǎn)的源頭是

org.apache.commons.text.StringSubstitutor:

java.lang.String replace(java.lang.String)方法的參數(shù)@parameter0。

同時(shí)，在結(jié)果集中的AppTaintedVar.csv文件也可以看到具體的應(yīng)用代碼中由于污點(diǎn)傳播過程中的被污染的變量.以上面commons text 漏洞執(zhí)行方法棧中的

org.apache.commons.text.StringSubstitutor的resolveVariable為例：

可以看出方法中被污染的入?yún)ariableName、buf，還有resolver，以及$stack7等(這是經(jīng)過soot生成jimple的過程中SSA pack部分優(yōu)化新增的棧變量)。

基于這兩個(gè)結(jié)果集基本可以看出漏洞的觸發(fā)流程或者說污點(diǎn)的傳播過程（雖然不是特別直觀），如果需要也可以再搭配生成的CallGraphEdge.csv去更方便的進(jìn)行分析。

四、總結(jié)

doop直接用來分析大型項(xiàng)目需要一定的計(jì)算資源，并且無論是規(guī)則的定制還是分析結(jié)果查看都不是特別直觀，畢竟它的設(shè)計(jì)初衷就是一款分析框架，用在實(shí)際漏掃漏洞挖掘中可能需要進(jìn)一步包裝修改。但可以看出，doop作為一款優(yōu)秀的開源靜態(tài)分析框架，在算法上毋庸置疑是比較先進(jìn)和豐富的，而且基于開源的算法規(guī)則，我們可以任意去定制我們需要的分析邏輯。其與codeql在設(shè)計(jì)思路也較為相近，將程序信息提取后生成數(shù)據(jù)庫，開放查詢接口，將程序分析轉(zhuǎn)變?yōu)閿?shù)據(jù)關(guān)系的查詢，因此可以擴(kuò)展出更多的用途。

責(zé)任編輯：龐桂玉來源： vivo互聯(lián)網(wǎng)技術(shù)