我的 JavaScript 比你的 Rust 更快
作者Josh Urbane 是一位從業多年的軟件架構師,很喜歡在社交媒體分享技術觀點。近日,他寫了一篇文章,記錄了自己憑借經驗贏了與新人開發者打賭的故事,而“我的 JavaScript 比你的 Rust 更快”的結論也是來自這個打賭。他的故事或許可以說明運行策略在研發實踐中的重要性。
對我來說,軟件架構師這活兒最讓人開心的一點就是能指導開發者理解最新的概念、影響他們的技術判斷。有些開發者不是很囂張嗎,那就用理論加現實啪啪打他們的臉;架構師還得負責營造出寓教于樂的學習氛圍,幫助年輕氣盛的開發者逐漸長大成熟。
最會讓我在心里暗爽的事兒就是一個愣頭青開發者突然跳出來、想要挑戰我的技術建議(從開發者的視角看,架構師就是一幫總在提「錯誤」建議的傻瓜),而且賭上全部身家堅持認為自己的辦法更好。
問題是,我已經干這行很久了,不用驗證我就知道問題的正確答案是什么。所以那就來唄,咱們手底下見真章,我把這段故事記錄了下來、在幾年后整理成了今天的這篇文章。
梭哈是一種“智慧”
老實講,下面要講的這個事已經過去好幾年了,所以很多細節我已經記不清楚。大體情況就是結合當時團隊的知識儲備、可用工具庫和原有技術債務,我給出的建議是讓大家使用 Node.js。
一個新任初級開發者對自己剛拿到的計算機科學學士證書很有信心,想要用“炫技”的方式挫挫我的銳氣。他們聽說我是輔修的計算機科學,所以覺得我壓根不了解計算機底層原理。其實剛畢業那會我也認為自己很懂,但這行干久了,我越來越覺得計算機系統像是魔法……
他的信心并非毫無來由,這個結論如同“C++ 比 JavaScript 速度快”,基本屬于業界共識。但作為典型的架構師,我仍然堅持認為“要視情況而定”。
更具體地講,“經過充分優化的 C++,確實比具有同等優化水平的 JavaScript 跑得更快”,畢竟 JavaScript 有著無法避免的執行開銷(即便如此,我們也可以把代碼編譯成靜態程序來獲得高度接近 C++ 的性能)。反正話已至此,那就梭了唄。
意外的是,JavaScript 代碼確實要比 C++ 版本更快一點,而且從架構設計的角度來看,JS 版本可以由當前團隊一力維護、不需要借助其他部門的技術能力。
還好還好,其實我也不敢百分之百確定自己是對的,但考慮到這個用例中的內存對象大小可能是動態的、再加上那位年輕開發者確實經驗不足,所以我愿意賭上一把。
JS 比 C++ 還快,怎么實現的?
我猜大多數開發者都理解不了這樣的結果。這明顯跟“編譯”語言快于“解釋”語言、“靜態”程序快于“VM”程序的基本原則背道而馳啊。但請注意,這些只是經驗、而非真理。
我之前也提到,“優化”才是決定速度的關鍵。畢竟即使 C++ 語言自身的性能優勢再強,糟糕的編寫質量也會讓程序身陷泥潭。另一方面,Node.js(使用基于 C++/C 的 V8 與 libuv 庫)則更具優化空間,所以實際運行速度并不差。甚至可以說,質量同樣差勁的 JS 和 C++ 程序,JS 的性能可能還更好一點。但這只是宏觀論述,下面咱們來看點細節。
內存是關鍵
大多數開發者應該很熟悉棧和堆的概念,但這種理解基本只停留在了表面——例如只知道棧是線性的,而堆就是帶有指針的“坨”(并非嚴格術語,大家能理解就行)。
更重要的是,棧和堆的概念對應著多種實現和方法。底層硬件并不知道“堆”是個什么東西,因為內存的管理方式是由軟件來定義的,而內存管理方面的選擇必然會對程序的最終性能產生巨大影響。
大家也可以就這個問題深挖下去,很有意義也很有價值。現代硬件和內核都相當復雜,其中往往包含大量具有特殊用途的優化機制,例如更高效地利用高級內存布局。這意味著軟件可以(或者必須)借用由硬件提供的內存管理功能。此外還有虛擬化的影響……這里就不多做展開了。
魔法的核心:垃圾回收
沒錯,Node.js 解決方案的啟動時間肯定更長,因為它需要通過 JIT 編譯器來實現腳本的加載和運行。不過一旦加載完成,Node.js 代碼其實反而擁有一項神秘的優勢——垃圾回收機制。
而在 C++ 程序中,應用程序往往會在堆中創建動態大小的對象,之后再將其刪除。這意味著程序的分配器必須一遍又一遍地在堆中分配和釋放內存。這項操作本身速度較慢,而且實際性能基本由分配器中的算法決定。在多數情況下,dealloc 的速度會特別慢,即使是精簡后的 alloc 也沒好太多。
對于 Node.js 程序,這項絕技就是程序只運行一次就會退出。Node.js 同樣運行腳本并分配必要的內存,但后面的刪除操作會由垃圾回收器挑選空閑時間再推遲執行。
誠然,垃圾回收機制在本質上并不比其他內存管理策略更好或者更差(一切都是權衡),但在我們打賭的這個特定程序中,垃圾回收確實能顯著提升性能,因為這個程序壓根就沒真正運行過。我們只是把一大堆對象塞進內存,再在退出時一次性丟棄。
垃圾回收肯定是有代價的,Node.js 進程占用的內存容量明顯大于 C++ 程序。這就是“省 cpu= 費內存”和“省內存 = 費 cpu”的經典難題,但我的目標就是打那小子的臉,所以費點內存也無所謂。
而我之所以能贏,是因為對方選擇了一個幼稚的策略。其實他要想贏,最好的辦法就是添加內存泄漏,故意把所有分配都保留在內存當中。這樣 C++ 程序的內存占用量還是更小,但速度卻比原先快得多。或者,他也可以用給棧分配緩沖區之類的設計來進一步提高性能,這種辦法在實際生產中其實經常用到。
另外還有如何選擇性能基準的問題。一般來說,大家比較的就是每秒操作數量。這里的 JS 對 C++ 就是個很好的例子,證明了“先理解總體性能成本,再做選擇”往往更加靠譜。在軟件架構中,我們必須得時刻關注資源層面的“總體擁有成本”。
步入現代:有請 Rust 上場
Rust 是我目前最喜歡的語言之一。它提供了很多現代特性、速度很快,而且具備良好的內存模型,生成的代碼也相當安全。
Rust 當然不是完美的,它的編譯時間比較長、涉及不少奇奇怪怪的語義,但總體來說還是值得推薦。大家可以對 Rust 中的內存管理方式進行靈活控制,但其“棧”內存始終遵循所有者模型(ownership model),這也是其實現引以為傲的高安全性能的基礎。
我目前參與的一個項目就是用 Rust 編寫的 FaaS(函數即服務)主機,負責執行 WASM(WebAssembly)函數。它能快速安全地執行各項隔離函數,最大限度降低 FaaS 的運行開銷。它的速度也很快,每核心每秒能夠處理 90000 個簡單請求。更重要的是,它的總內存占用量只有 20 MB 上下,可以說相當夸張了。
但這跟 Node.js 與 C++ 的賭局有什么關系?
簡單來說,我是把 Node.js 視為“合理”的性能基準(Go 屬于「夢幻」級基準,它的性能絕對不是那些專為 Web 服務設計的語言能比肩的,這里就別降維打擊了),畢竟我們那款程序的早期 C++ 版本性能實在不咋的,唯一的好處就是內存占用量只有 Node.js 版本的不到十分之一。
雖然先讓代碼跑起來、再對代碼做優化確實沒啥毛病,但在 C++ 這種“快”語言上輸給了 JavaScript 肯定讓人非常沮喪。而我之所以敢當場梭哈,靠的就是對明顯瓶頸的基本判斷。這個瓶頸就是內存管理。
每個 guest 函數都被分配到一個內存數組,但在函數之內分配內存,以及在函數內存與主機內存間復制數據肯定會帶來大量性能開銷。由于動態數據被四處亂扔,分配器相當于是飽受四面八方的重拳打擊。至于解決辦法嘛,作弊嘍!
加堆,兩個堆、三個堆......
從本質上講,堆代表的是分配器用來管理映射的一部分內存。程序會請求 N 個內存單元,分配器在可用的內存池里搜尋這些單元(或者向主機請求更多內存)及存儲哪些單元已被占用,之后再返回該內存的位置指針。當程序用盡內存時,就會告知分配器,再由分配器更新映射以明確現在哪些單元已經再次可用。挺簡單的,對吧?
但如果我們需要分配一大堆生命周期有別、大小各異的內存單元時,麻煩就來了。這一定會產生大量碎片,進而放大了新內存的分配成本。于是性能損失開始產生,畢竟分配器的功能太過簡單,只是在尋找可用的存儲位置。
這個問題顯然沒有太好的解決方案,雖然目前可選的分配算法很多,但它們還是各有權衡、要求我們結合用例特點選擇最適方法(也可以像大多數開發者一樣,直接用默認選項)。
再來說作弊。作弊的辦法可不只一種:對于 FaaS,我們可以釋放每次運行的 dealloc,并在每次運行完成后清除整個堆;我們也可以在函數生命周期的不同階段使用不同的分配器,例如明確區分初始化階段和運行階段。這樣無論是干凈的函數(每次運行,都會被重置為相同的初始內存狀態)還是有狀態函數(在每次運行之間保留狀態),都能獲得與之對應且經過優化的內存策略。
在我們的 FaaS 項目里,大家最終構建了一個動態分配器,它會根據使用情況選擇分配算法、且實際選擇會在每次運行之間持續留存。
對于“使用率較低”的函數(也就是大多數函數),只使用簡單的棧分配器用指針指向下一個空閑槽即可。當調用 dealloc 時,如果該單元為棧上的最后一個單元,則回滾指針;如果不是最后一個單元,則無操作。當函數完成時,指針將被設置為 0(相當于 Node.js 在垃圾回收前退出)。如果函數的 dealloc 失敗數和用量達到一定閾值,則在其余調用中使用其他分配算法。結果就是,這套方案在大多數情況下都能顯著加快內存分配。
運行時中還用到了另一個“堆”——主機(或者說是函數共享內存)。它使用同樣的動態分配策略,并允許繞過早期 C++ 版本中的復制步驟、直接寫入函數內存。如此一來,I/O 就能直接從內核中復制 guest 函數,并繞過主機運行時,從而顯著提高吞吐量。
Node.js 對陣 Rust
經過優化,Rust FaaS 運行時最終比我們的 Node.js 參考實現快了 70% 以上,而內存占用量更是不到后者的十分之一。
但這里的關鍵在于“經過優化”,它的初始實現其實速度反而更慢。我們的優化還要求對 WASM 函數做出一些限制,具體限制在編譯過程中完全公開透明,而且極少出現不兼容的情況。
Rust 版本的最大優勢就是內存占用小,省下來的 RAM 可以用作緩存或者分布式內存存儲等其他用途。這意味著 I/O 開銷進一步降低,生產運行的效率更高,其效果甚至比拉高 CPU 配置還更明顯些。
后續我們還有更多優化計劃,但主要是為了解決主機層中一些具有重大安全影響的問題。雖然跟內存管理或者性能沒啥關系,但畢竟也算支持了 “Rust 比 Node 更快”黨們的觀點。
總結
其實全文寫下來,我也得不出特別明確的結論。下面只給出幾個粗淺的觀點:
- 內存管理很有趣,每種方法都是在做取舍。只要策略運用得當,任何一種語言都能獲得巨大的性能提升。
- 我仍然推薦大家根據實際目標靈活使用 Node.js 和 Rust,所以這里不做優劣判斷。JavaScript 的可移植性確實更好,而且特別適合云原生開發場景;但如果大家特別看重性能,那 Rust 可能是個更好的選擇。
- 從頭到尾我都在說 JavaScript,但這里實際指的是 TypeScript。
歸根結底,大家得根據實際情況選擇最適合的技術方案。我們越是了解不同棧的不同特征,在選擇的時候就越是從容有數。
原文鏈接:https://medium.com/@jbyj/my-javascript-is-faster-than-your-rust-5f98fe5db1bf