Simdjson:一個超高速的JSON解析工具
JSON文檔在Internet上無處不在,服務器花費大量時間來解析這些文檔。我們希望在進行完全驗證(包括字符編碼)時盡可能使用常用的SIMD指令來加速JSON本身的解析。
表現結果
simdjson使用的指令比解析器RapidJSON少四分之三,比sajson少百分之五十。據我們所知,simdjson是一個在商用處理器上以每秒千兆字節運行的完全驗證的JSON解析器。
在Skylake處理器上,twitter.json文件上各種處理器的解析速度(以GB / s為單位)如下。
解析器 | GB /秒 |
---|---|
simdjson | 2.2 |
RapidJSON編碼驗證 | 0.51 |
RapidJSON編碼驗證,原位 | 0.71 |
sajson(原狀,動態) | 0.70 |
sajson(insitu,static) | 0.97 |
dropbox | 0.14 |
FASTJSON | 0.26 |
gason | 0.85 |
ultrajson | 0.42 |
jsmn | 0.28 |
cJSON | 0.34 |
要求
我們通過Visual Studio 2017或更高版本支持Linux或macOS等平臺以及Windows;
帶有高級矢量擴展指令集的處理器(即,2013年發布的Haswell微體系結構的Intel處理器和2017年發布的Zen微體系結構的AMD處理器);
最近的C ++編譯器(例如,GNU GCC或LLVM CLANG或Visual Studio 2017),我們假設C ++ 17。GNU GCC 7或更高版本或LLVM的clang 6或更高版本。
License
此代碼在Apache License 2.0下提供。
在Windows下,我們使用 windows/dirent_portable.h
文件(在我們的庫代碼之外)構建一些工具
代碼示例
- #include "simdjson/jsonparser.h"
- /...
- const char * filename = ... //
- //使用您想要的任何方式獲取JSON文檔的字符串
- std::string_view p = get_corpus(filename);
- ParsedJson pj;
- pj.allocateCapacity(p.size());//分配內存以解析p.size()字節
- const int res = json_parse(p, pj); //進行解析,成功時返回0
- //解析完成!
- if(res!= 0){
- //您可以使用“simdjson / simdjson.h”標頭來訪問錯誤消息
- std::cout << "Error parsing:" << simdjson::errorMsg(res) << std::endl;
- }
- //你可以安全地刪除字符串內容
- free((void*)p.data());
- //可以在這里使用ParsedJson文檔
- // js可以與其他json_parse調用一起使用。
如果您不介意為每個新的JSON文檔分配內存開銷,也可以使用更簡單的API:
- #include "simdjson/jsonparser.h"
- / ...
- const char * filename = ... //
- std::string_view p = get_corpus(filename);
- ParsedJson pj = build_parsed_json(p); //進行解析
- //此時你不再需要p,可以執行aligned_free((void *)p.data())
- if( ! pj.isValid() ) {
- //出錯了
- }
用法:簡單的版本
有關用法,請參閱“singleheader”存儲庫的文件“amalgamation_demo.cpp”。這不需要特定的構建系統:只需在包含路徑中復制項目中的文件即可。然后,您可以非常簡單地包含它們:
- #include <iostream>
- #include "simdjson.h"
- #include "simdjson.cpp"
- int main(int argc, char *argv[]) {
- const char * filename = argv[1];
- std::string_view p = get_corpus(filename);
- ParsedJson pj = build_parsed_json(p); // do the parsing
- if( ! pj.isValid() ) {
- std::cout << "not valid" << std::endl;
- } else {
- std::cout << "valid" << std::endl;
- }
- return EXIT_SUCCESS;
- }
我們需高級矢量擴展指令集指令的硬件支持。您必須確保指示編譯器根據需要使用這些說明。在GNU GCC或LLVM clang等編譯器下, -march=native
最近的Intel處理器(Haswell或更好)上使用的標志就足夠了。為了便于二進制文件的可移植性,您還可以直接指定Haswell處理器( -march=haswell
)。
注意:在某些設置中,可能需要預編譯 simdjson.cpp
而不是包含它。
用法(在Linux或macOS等平臺上使用舊版Makefile)
要求:最近的clang或gcc,和make。我們建議至少使用GNU GCC / G ++ 7或LLVM clang 6.需要像Linux或macOS這樣的系統。
測試:
- make
- make test
要運行基準測試:
- make parse
- ./parse jsonexamples/twitter.json
在Linux下,該 parse
命令提供了性能計數器的詳細分析。
運行比較基準測試(與其他解析器):
- make benchmark
用法(在Linux或macOS等平臺上使用CMake)
要求:我們需要新版本的cmake。在macOS上,安裝cmake的最簡單方法可能是使用 brew然后鍵入
- brew install cmake
在Linux上 有一個 相同的Brew也可以以相同的方式工作 。
你需要一個像clang或gcc這樣的新編譯器。我們建議至少使用GNU GCC / G ++ 7或LLVM clang 6.例如,您可以使用brew安裝新的編譯器:
- brew install gcc@8
可選:您需要通過設置CC和CXX變量告訴cmake您希望使用哪個編譯器。bash下,你可以用諸如命令這樣做 export CC=gcc-7
和 export CXX=g++-7
。
構建:在項目存儲庫中,執行以下操作:
- mkdir build
- cd build
- cmake ..
- make
- make test
默認情況下,它構建一個共享庫(例如,Linux上的libsimdjson.so)。
您可以構建一個靜態庫:
- mkdir buildstatic
- cd buildstatic
- cmake -DSIMDJSON_BUILD_STATIC=ON ..
- make
- make test
在某些情況下,您可能希望指定編譯器,尤其是在系統上的默認編譯器太舊的情況下。您可以按以下步驟操作:
- brew install gcc@8
- mkdir build
- cd build
- export CXX=g++-8 CC=gcc-8
- cmake ..
- make
- make test
用法(使用Visual Studio在Windows上進行CMake)
我們假設您有一臺普通的Windows PC,至少包含Visual Studio 2017和支持高級矢量擴展指令集的x64處理器(2013 Intel Haswell或更高版本)。
從GitHub獲取simdjson代碼,例如,使用 GitHub Desktop 克隆它;
安裝 CMake 。安裝時,請確保 cmake
從命令行詢問是否可用。請選擇新版本的cmake;
在simdjson中創建一個子目錄,例如 VisualStudio;
使用shell,轉到這個新創建的目錄;
cmake -DCMAKE_GENERATOR_PLATFORM=x64 ..
在 VisualStudio
存儲庫中鍵入shell 。(或者,如果要構建DLL,可以使用命令行 cmake -DCMAKE_GENERATOR_PLATFORM=x64 -DSIMDJSON_BUILD_STATIC=OFF ..
)
末尾一個命令在新創建的目錄中創建了一個Visual Studio解決方案文件(例如 simdjson.sln
)。在Visual Studio中打開此文件。您現在應該能夠構建項目并運行測試。例如,在 Solution Explorer
窗口(可從 View
菜單中獲得)中,右鍵單擊 ALL_BUILD
并選擇 Build
。要測試代碼,仍然在 Solution Explorer
窗口中,選擇 RUN_TESTS
并選擇 Build
。
用法(在Windows,Linux和MacOS上使用vcpkg)
Windows,Linux和MacOS上的 vcpkg 用戶可以 simdjson
使用他們喜歡的shell中的一個命令下載和安裝。
在Linux和MacOS上:
- $ ./vcpkg install simdjson
將構建并安裝 simdjson
為靜態庫。
在Windows(64位)上:
- .\vcpkg.exe install simdjson:x64-windows
將構建并安裝 simdjson
為共享庫。
- .\vcpkg.exe install simdjson:x64-windows-static
將構建并安裝 simdjson
為靜態庫。
這些命令還將打印出有關如何使用MSBuild或基于CMake的項目庫的說明。
如果您發現 simdjson
附帶的版本 vcpkg
已過期,請隨時通過提交 vcpkg
問題或創建PR 向社區報告。
工具
json2json mydoc.json 解析文檔,構造模型,然后將結果轉儲回標準輸出
json2json -d mydoc.json 解析文檔,構造模型,然后將模型(作為磁帶)轉儲到標準輸出。磁帶格式在隨附文件中描述
tape.md
minify mydoc.json`縮小JSON文檔,將結果輸出到標準輸出。縮小意味著刪除不需要的空格字符。
范圍
我們提供快速解析器。它根據各種規格完全驗證輸入。解析器構建一個有用的不可變(只讀)DOM(文檔 – 對象模型),以后可以訪問它。
為了簡化工程,我們做了一些假設:
我們支持UTF-8(以及ASCII),沒有別的(沒有拉丁語,沒有UTF-16)。我們不認為這是一個真正的限制,因為我們認為沒有任何嚴重的應用程序需要在沒有ASCII或UTF-8編碼的情況下處理JSON數據;
JSON文檔中的所有字符串最多可包含UTF-8(4GB)中的4294967295個字節。要強制執行此約束,我們拒絕解析包含超過4294967295字節(4GB)的文檔。這應該適應大多數JSON文檔;
我們假設高級矢量擴展指令集支持在AMD和英特爾生產的所有主流x86處理器中都可用。盡管可以完成,但不包括對非x86處理器的支持。我們計劃支持ARM處理器(請求幫助);
如果發生故障,我們只會報告故障,而不會指出問題的性質。(這可以在不影響性能的情況下輕松改進);
在規范允許的情況下,我們允許對象內的重復鍵(像sajson這樣的其他解析器也這樣做);
性能針對跨越至少幾十千字節到幾兆字節的JSON文檔進行了優化:必須解析許多小型JSON文檔或一個真正龐大的JSON文檔的性能問題是不同的。
我們的目標不是提供通用的JSON庫。像RapidJSON這樣的庫提供的不僅僅是解析,它還可以幫助您生成JSON并提供各種其他方便的功能。我們只解析文檔。
特征
輸入字符串未修改,(像sajson和RapidJSON這樣的解析器使用輸入字符串作為緩沖區)。
我們將整數和浮點數解析為單獨的類型,這允許我們支持[-9223372036854775808,9223372036854775808]中的大型64位整數,如C / C ++ long long
。在區分整數和浮點數的解析器中,并非所有解析器都支持64位整數。(例如,sajson拒絕整數大于或等于2147483648的JSON文件.FreeJSON將解析包含過長整數的文件,如18446744073709551616作為浮點數)當我們無法將整數表示為帶符號的64位時值,我們拒絕JSON文檔。
在解析過程中進行完整的UTF-8驗證(像fastjson,gason和dropbox json11這樣的解析器不會進行UTF-8驗證);完全驗證了這些數字(像gason和ultranjson這樣的解析器將接受 [0e+]
為有效的JSON);驗證未轉義字符的字符串內容(像fastjson和ultrajson這樣的解析器接受未轉義的換行符和字符串中的標簽)。
Architecture
解析器分兩個階段工作:
階段1.(查找標記)快速標識結構元素,字符串等。我們在那個階段驗證UTF-8編碼。
階段2.(結構構建)涉及構建排序的“樹”(具體化為磁帶)以瀏覽數據。在此階段解析字符串和數字。
導航已解析的文檔
以下是將解析后的JSON轉儲回字符串的代碼示例:
- ParsedJson::iterator pjh(pj);
- if (!pjh.isOk()) {
- std::cerr << " Could not iterate parsed result. " << std::endl;
- return EXIT_FAILURE;
- }
- compute_dump(pj);
- //
- // where compute_dump is :
- void compute_dump(ParsedJson::iterator &pjh) {
- if (pjh.is_object()) {
- std::cout << "{";
- if (pjh.down()) {
- pjh.print(std::cout); // must be a string
- std::cout << ":";
- pjh.next();
- compute_dump(pjh); // let us recurse
- while (pjh.next()) {
- std::cout << ",";
- pjh.print(std::cout);
- std::cout << ":";
- pjh.next();
- compute_dump(pjh); // let us recurse
- }
- pjh.up();
- }
- std::cout << "}";
- } else if (pjh.is_array()) {
- std::cout << "[";
- if (pjh.down()) {
- compute_dump(pjh); // let us recurse
- while (pjh.next()) {
- std::cout << ",";
- compute_dump(pjh); // let us recurse
- }
- pjh.up();
- }
- std::cout << "]";
- } else {
- pjh.print(std::cout); // just print the lone value
- }
- }
以下函數將查找所有user.id整數:
- void simdjson_traverse(std::vector<int64_t> &answer, ParsedJson::iterator &i) {
- switch (i.get_type()) {
- case '{':
- if (i.down()) {
- do {
- bool founduser = equals(i.get_string(), "user");
- i.next(); // move to value
- if (i.is_object()) {
- if (founduser && i.move_to_key("id")) {
- if (i.is_integer()) {
- answer.push_back(i.get_integer());
- }
- i.up();
- }
- simdjson_traverse(answer, i);
- } else if (i.is_array()) {
- simdjson_traverse(answer, i);
- }
- } while (i.next());
- i.up();
- }
- break;
- case '[':
- if (i.down()) {
- do {
- if (i.is_object_or_array()) {
- simdjson_traverse(answer, i);
- }
- } while (i.next());
- i.up();
- }
- break;
- case 'l':
- case 'd':
- case 'n':
- case 't':
- case 'f':
- default:
- break;
- }
- }
深入比較
如果您想了解各種解析器如何驗證給定的JSON文件:
- make allparserscheckfile
- ./allparserscheckfile myfile.json
對于性能比較:
- make parsingcompetition
- ./parsingcompetition myfile.json
進行更廣泛的比較:
- make allparsingcompetition
- ./allparsingcompetition myfile.json