RocketMQ每秒要寫入幾十萬并發，是怎么實現的？

作者：石杉的架構筆記 2022-09-10 18:54:14

開發前端

Kafka是高吞吐低延遲的高并發、高性能的消息中間件，在大數據領域有極為廣泛的運用。配置良好的Kafka集群甚至可以做到每秒幾十萬、上百萬的超高并發寫入。

?目錄

1、頁緩存技術 + 磁盤順序寫
2、零拷貝技術
3、最后的總結

這篇文章來聊一下Kafka的一些架構設計原理，這也是互聯網公司面試時非常高頻的技術考點。

那么Kafka到底是如何做到這么高的吞吐量和性能的呢？這篇文章我們來一點一點說一下。

1、頁緩存技術 + 磁盤順序寫

首先Kafka每次接收到數據都會往磁盤上去寫，如下圖所示。

那么在這里我們不禁有一個疑問了，如果把數據基于磁盤來存儲，頻繁的往磁盤文件里寫數據，這個性能會不會很差？大家肯定都覺得磁盤寫性能是極差的。

沒錯，要是真的跟上面那個圖那么簡單的話，那確實這個性能是比較差的。

但是實際上Kafka在這里有極為優秀和出色的設計，就是為了保證數據寫入性能，首先Kafka是基于操作系統的頁緩存來實現文件寫入的。

操作系統本身有一層緩存，叫做page cache，是在內存里的緩存，我們也可以稱之為os cache，意思就是操作系統自己管理的緩存。

你在寫入磁盤文件的時候，可以直接寫入這個os cache里，也就是僅僅寫入內存中，接下來由操作系統自己決定什么時候把os cache里的數據真的刷入磁盤文件中。

僅僅這一個步驟，就可以將磁盤文件寫性能提升很多了，因為其實這里相當于是在寫內存，不是在寫磁盤，大家看下圖。

接著另外一個就是kafka寫數據的時候，非常關鍵的一點，他是以磁盤順序寫的方式來寫的。也就是說，僅僅將數據追加到文件的末尾，不是在文件的隨機位置來修改數據。

普通的機械磁盤如果你要是隨機寫的話，確實性能極差，也就是隨便找到文件的某個位置來寫數據。

但是如果你是追加文件末尾按照順序的方式來寫數據的話，那么這種磁盤順序寫的性能基本上可以跟寫內存的性能本身也是差不多的。

所以大家就知道了，上面那個圖里，Kafka在寫數據的時候，一方面基于了os層面的page cache來寫數據，所以性能很高，本質就是在寫內存罷了。

另外一個，他是采用磁盤順序寫的方式，所以即使數據刷入磁盤的時候，性能也是極高的，也跟寫內存是差不多的。

基于上面兩點，kafka就實現了寫入數據的超高性能。

那么大家想想，假如說kafka寫入一條數據要耗費1毫秒的時間，那么是不是每秒就是可以寫入1000條數據？

但是假如kafka的性能極高，寫入一條數據僅僅耗費0.01毫秒呢？那么每秒是不是就可以寫入10萬條數？

所以要保證每秒寫入幾萬甚至幾十萬條數據的核心點，就是盡最大可能提升每條數據寫入的性能，這樣就可以在單位時間內寫入更多的數據量，提升吞吐量。

2、零拷貝技術

說完了寫入這塊，再來談談消費這塊。

大家應該都知道，從Kafka里我們經常要消費數據，那么消費的時候實際上就是要從kafka的磁盤文件里讀取某條數據然后發送給下游的消費者，如下圖所示。

那么這里如果頻繁的從磁盤讀數據然后發給消費者，性能瓶頸在哪里呢？

假設要是kafka什么優化都不做，就是很簡單的從磁盤讀數據發送給下游的消費者，那么大概過程如下所示：

先看看要讀的數據在不在os cache里，如果不在的話就從磁盤文件里讀取數據后放入os cache。

接著從操作系統的os cache里拷貝數據到應用程序進程的緩存里，再從應用程序進程的緩存里拷貝數據到操作系統層面的Socket緩存里，最后從Socket緩存里提取數據后發送到網卡，最后發送出去給下游消費。

整個過程，如下圖所示：

大家看上圖，很明顯可以看到有兩次沒必要的拷貝吧！

一次是從操作系統的cache里拷貝到應用進程的緩存里，接著又從應用程序緩存里拷貝回操作系統的Socket緩存里。

而且為了進行這兩次拷貝，中間還發生了好幾次上下文切換，一會兒是應用程序在執行，一會兒上下文切換到操作系統來執行。

所以這種方式來讀取數據是比較消耗性能的。

Kafka為了解決這個問題，在讀數據的時候是引入零拷貝技術。

也就是說，直接讓操作系統的cache中的數據發送到網卡后傳輸給下游的消費者，中間跳過了兩次拷貝數據的步驟，Socket緩存中僅僅會拷貝一個描述符過去，不會拷貝數據到Socket緩存。

大家看下圖，體會一下這個精妙的過程：

通過零拷貝技術，就不需要把os cache里的數據拷貝到應用緩存，再從應用緩存拷貝到Socket緩存了，兩次拷貝都省略了，所以叫做零拷貝。

對Socket緩存僅僅就是拷貝數據的描述符過去，然后數據就直接從os cache中發送到網卡上去了，這個過程大大的提升了數據消費時讀取文件數據的性能。

而且大家會注意到，在從磁盤讀數據的時候，會先看看os cache內存中是否有，如果有的話，其實讀數據都是直接讀內存的。

如果kafka集群經過良好的調優，大家會發現大量的數據都是直接寫入os cache中，然后讀數據的時候也是從os cache中讀。

相當于是Kafka完全基于內存提供數據的寫和讀了，所以這個整體性能會極其的高。

3、最后的總結

通過這篇文章對kafka底層的頁緩存技術的使用，磁盤順序寫的思路，以及零拷貝技術的運用，大家應該就明白Kafka每臺機器在底層對數據進行寫和讀的時候采取的是什么樣的思路，為什么他的性能可以那么高，做到每秒幾十萬的吞吐量。

這種設計思想對我們平時自己設計中間件的架構，或者是出去面試的時候，都有很大的幫助。?

責任編輯：武曉燕來源：今日頭條

Kafka 零拷貝磁盤

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RocketMQ每秒要寫入幾十萬并發，是怎么實現的？

?目錄

1、頁緩存技術 + 磁盤順序寫

2、零拷貝技術

3、最后的總結