Go1.24 新特性：自旋互斥 lock2 優化，性能有一定提高！

作者：陳煎魚 2025-01-20 08:51:32

開發前端

通過上述的分析，原作者發現當前的 lock2 實現雖然理論上允許線程睡眠，但實際上導致所有線程都在自旋，自旋的線程至少與（并且可能也導致）更慢的鎖傳遞有關，帶來了不少的性能損耗。

大家好，我是煎魚。

除了上次跟大家提到的 map 使用 Swiss Table 來替換 Hashmap 的原始實現以外。本次 Go1.24 新版本還帶來了更多的有效優化。

今天這篇文章將繼續和大家一起學習自旋互斥 lock2 優化。

背景

提案作者 @Rhys Hiltner 在 2024 年提出了改進互斥鎖的性能優化訴求：

其個人對于 runtime.mutex 值的部分經驗是：整個進程會因為對單個 mutex 的需求使得整個程序緩慢運行。

我不認為這一點會讓人感到意外，盡管速度減慢的程度超出了我的預期。主要的驚喜在于，程序一旦跌落性能懸崖，就很難再恢復過來。

性能測試

在基準測試 ChanContended 中，作者發現隨著 GOMAXPROCS 的增加，mutex 的性能明顯下降。

Intel i7-13700H (linux/amd64)：

當允許使用 4 個線程時，整個進程的吞吐量是單線程時的一半。
當允許使用 8 個線程時，吞吐量再次減半。
當允許使用 12 個線程時，吞吐量再次減半。
在 GOMAXPROCS=20 時，200 次通道操作平均耗時 44 微秒，平均每 220 納秒調用一次 unlock2，每次都有機會喚醒一個睡眠線程。

M1 MacBook Air (darwin/arm64)：
當允許使用 5 個線程時，吞吐量不到單線程時的一半。

另一個角度是考慮進程的 CPU 占用時間。

下面的數據顯示，在 1.78 秒的掛鐘時間內，進程的 20 個線程在 lock2 調用中總共有 27.74 秒處于 CPU 上。

如下測試報告：

$ go test runtime -test.run='^$' -test.bench=ChanContended -test.cpu=20 -test.count=1 -test.cpuprofile=/tmp/p
goos: linux
goarch: amd64
pkg: runtime
cpu: 13th Gen Intel(R) Core(TM) i7-13700H
BenchmarkChanContended-20        26667      44404 ns/op
PASS
ok   runtime 1.785s

$ go tool pprof -peek runtime.lock2 /tmp/p
File: runtime.test
Type: cpu
Time: Jul 24, 2024 at 8:45pm (UTC)
Duration: 1.78s, Total samples = 31.32s (1759.32%)
Showing nodes accounting for 31.32s, 100% of 31.32s total
----------------------------------------------------------+-------------
      flat  flat%   sum%        cum   cum%   calls calls% + context
----------------------------------------------------------+-------------
                                            27.74s   100% |   runtime.lockWithRank
     4.57s 14.59% 14.59%     27.74s 88.57%                | runtime.lock2
                                            19.50s 70.30% |   runtime.procyield
                                             2.74s  9.88% |   runtime.futexsleep
                                             0.84s  3.03% |   runtime.osyield
                                             0.07s  0.25% |   runtime.(*lockTimer).begin
                                             0.02s 0.072% |   runtime.(*lockTimer).end
----------------------------------------------------------+-------------

關鍵問題之一：這些 lock2 相關的線程并沒有休眠，而是一直在自旋！

新提案：增加 spinning 狀態

發現問題

@Rhys Hiltner 進而提出了新的設計方案《Proposal: Improve scalability of runtime.lock2[1]》。大家有興趣的可以認真看下。下面提及主要優化部分。

核心優化點

核心的觀點在于：擴展互斥鎖的 mutex 狀態字，加入一個新的標志位，稱為 “spinning”（旋轉）。

使用這個 “spinning” 位來表示是否有一個等待的線程處于 “醒著并循環嘗試獲取鎖” 的狀態。線程之間會互相排除進入 “spinning” 狀態，但它們不會因為嘗試獲取這個標志位而阻塞。

只有持有 “spinning” 位的線程可以循環重新加載 mutex 狀態字。這個線程在進入休眠之前會釋放 “spinning” 位。其他等待線程則會直接進入休眠，而不會嘗試爭奪 “spinning” 位。

當某個線程解鎖互斥鎖時，如果發現已經有線程處于 “醒著并旋轉” 的狀態，就可以避免喚醒其他線程。在 Go 運行時的背景下，這種設計被稱為 “spinbit”（旋轉位）。

簡單來說，這個設計的核心目的是：通過讓一個線程負責 “旋轉嘗試獲取鎖”，避免所有線程都同時競爭資源，從而減少爭用和不必要的線程切換。

兼容性和多平臺

本次對于兼容性有保障，導出 API 沒有變化。所以我們只需要升級到新版本 Go1.24 就可以白嫖這個優化點了！

目前該優化支持 futex 和 Xchg8 系統調用兩個類型。futex 專門用于 GOOS=linux 平臺。futex 是主要實現，整體綜合表現會好一些。

在已支持的平臺上會默認打開 GOEXPERIMENT=spinbitmutex 以此應用該實驗性規則。如果大家不需要可以進行關閉。

參考資料

[1]Proposal: Improve scalability of runtime.lock2: https://github.com/golang/proposal/blob/master/design/68578-mutex-spinbit.md

責任編輯：武曉燕來源：腦子進煎魚了

lock2 優化線程

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看