Linux內(nèi)核性能調(diào)優(yōu):讓系統(tǒng)飛起來的秘籍
在當今數(shù)字化時代,Linux 系統(tǒng)憑借其強大的穩(wěn)定性、開放性和靈活性,廣泛應(yīng)用于服務(wù)器、云計算、大數(shù)據(jù)等諸多領(lǐng)域。然而,隨著業(yè)務(wù)量的不斷增長和應(yīng)用場景的日益復(fù)雜,Linux 內(nèi)核的性能面臨著巨大挑戰(zhàn)。哪怕是微小的性能瓶頸,都可能像滾雪球一樣,在高負載運行時被無限放大,進而引發(fā)一系列嚴重問題。
想象一下,一個電商網(wǎng)站在購物高峰期,由于 Linux 內(nèi)核性能不佳,導(dǎo)致服務(wù)器響應(yīng)遲緩。用戶點擊商品詳情,頁面卻遲遲無法加載;提交訂單后,長時間得不到反饋。這不僅會讓用戶體驗大打折扣,還可能導(dǎo)致大量潛在客戶流失,給企業(yè)帶來不可估量的經(jīng)濟損失。再比如,一個實時數(shù)據(jù)分析系統(tǒng),因為內(nèi)核性能問題,無法及時處理海量數(shù)據(jù),使得分析結(jié)果嚴重滯后,企業(yè)決策層基于這些滯后數(shù)據(jù)做出的決策,很可能與市場實際情況脫節(jié),進而影響企業(yè)的戰(zhàn)略布局和發(fā)展方向。
由此可見,Linux 內(nèi)核性能調(diào)優(yōu)絕非小事,它直接關(guān)系到系統(tǒng)的穩(wěn)定性、可靠性以及業(yè)務(wù)的正常運轉(zhuǎn)。通過對內(nèi)核參數(shù)進行合理調(diào)整、優(yōu)化系統(tǒng)資源分配、采用高效的調(diào)度算法等手段,可以顯著提升 Linux 內(nèi)核的性能,讓系統(tǒng)在面對各種復(fù)雜工作負載時都能游刃有余。接下來,就讓我們一同深入探索 Linux 內(nèi)核性能調(diào)優(yōu)的精彩世界。
一、系統(tǒng)性能指標大揭秘
在深入探討 Linux 內(nèi)核性能調(diào)優(yōu)方法之前,我們首先要明確衡量系統(tǒng)性能的關(guān)鍵指標。就如同評價一輛汽車的性能,我們會關(guān)注它的速度、油耗、操控性等指標一樣,對于 Linux 系統(tǒng),吞吐量、系統(tǒng)延遲、CPU 使用率、內(nèi)存使用率和磁盤 I/O 等指標,能幫助我們?nèi)媪私庀到y(tǒng)的運行狀態(tài)。
1.1吞吐量:數(shù)據(jù)處理的速度擔(dān)當
吞吐量,是指在單位時間內(nèi)系統(tǒng)成功處理的數(shù)據(jù)量或請求數(shù) ,它直觀地反映了系統(tǒng)的數(shù)據(jù)處理能力。以一個電商網(wǎng)站為例,假設(shè)在促銷活動期間,該網(wǎng)站每秒能夠處理 1000 個商品查詢請求和 200 個訂單提交請求,這些請求處理的數(shù)量就是網(wǎng)站系統(tǒng)的吞吐量體現(xiàn)。如果網(wǎng)站的吞吐量較低,在高并發(fā)的情況下,大量請求就會堆積,導(dǎo)致系統(tǒng)響應(yīng)緩慢甚至崩潰。就像一條狹窄的公路,車流量稍大就會造成交通堵塞。提高系統(tǒng)吞吐量,能夠讓系統(tǒng)在單位時間內(nèi)處理更多的任務(wù),滿足業(yè)務(wù)增長的需求。
1.2系統(tǒng)延遲:影響用戶體驗的關(guān)鍵
系統(tǒng)延遲,指的是從請求發(fā)出到收到響應(yīng)所經(jīng)歷的時間。還是以電商網(wǎng)站為例,當用戶點擊商品詳情頁時,頁面如果能在 1 秒內(nèi)加載完成,用戶幾乎察覺不到延遲,體驗流暢;但如果加載時間長達 5 秒甚至更久,用戶就會感到不耐煩,可能會離開網(wǎng)站。低延遲對于提升用戶體驗至關(guān)重要,尤其在對實時性要求極高的場景,如在線游戲、金融交易等。在在線游戲中,玩家的每一個操作都需要及時反饋到游戲畫面中,如果系統(tǒng)延遲過高,玩家發(fā)出的攻擊指令可能要數(shù)秒后才會生效,這會嚴重影響游戲的公平性和趣味性。
一般來說,一個系統(tǒng)的性能受到這兩個條件的約束,缺一不可。比如,我的系統(tǒng)可以頂?shù)米∫话偃f的并發(fā),但是系統(tǒng)的延遲是2分鐘以上,那么,這個一百萬的負載毫無意義。系統(tǒng)延遲很短,但是吞吐量很低,同樣沒有意義。所以,一個好的系統(tǒng)的性能測試必然受到這兩個條件的同時作用。
有經(jīng)驗的朋友一定知道,這兩個東西的一些關(guān)系:
- Throughput越大,Latency會越差。因為請求量過大,系統(tǒng)太繁忙,所以響應(yīng)速度自然會低。
- Latency越好,能支持的Throughput就會越高。因為Latency短說明處理速度快,于是就可以處理更多的請求。
二、定位性能瓶頸的實用方法
2.1系統(tǒng)性能測試
經(jīng)過上述的說明,我們知道要測試系統(tǒng)的性能,需要我們收集系統(tǒng)的Throughput和Latency這兩個值。
- 首先,需要定義Latency這個值,比如說,對于網(wǎng)站系統(tǒng)響應(yīng)時間必需是5秒以內(nèi)(對于某些實時系統(tǒng)可能需要定義的更短,比如5ms以內(nèi),這個更根據(jù)不同的業(yè)務(wù)來定義)
- 其次,開發(fā)性能測試工具,一個工具用來制造高強度的Throughput,另一個工具用來測量Latency。對于第一個工具,你可以參考一下“十個免費的Web壓力測試工具”,關(guān)于如何測量Latency,你可以在代碼中測量,但是這樣會影響程序的執(zhí)行,而且只能測試到程序內(nèi)部的Latency,真正的Latency是整個系統(tǒng)都算上,包括操作系統(tǒng)和網(wǎng)絡(luò)的延時,你可以使用Wireshark來抓網(wǎng)絡(luò)包來測量。這兩個工具具體怎么做,這個還請大家自己思考去了。
- 最后,開始性能測試。你需要不斷地提升測試的Throughput,然后觀察系統(tǒng)的負載情況,如果系統(tǒng)頂?shù)米。蔷陀^察Latency的值。這樣,你就可以找到系統(tǒng)的最大負載,并且你可以知道系統(tǒng)的響應(yīng)延時是多少。
再多說一些,
- 關(guān)于Latency,如果吞吐量很少,這個值估計會非常穩(wěn)定,當吞吐量越來越大時,系統(tǒng)的Latency會出現(xiàn)非常劇烈的抖動,所以,我們在測量Latency的時候,我們需要注意到Latency的分布,也就是說,有百分之幾的在我們允許的范圍,有百分之幾的超出了,有百分之幾的完全不可接受。也許,平均下來的Latency達標了,但是其中僅有50%的達到了我們可接受的范圍。那也沒有意義。
- 關(guān)于性能測試,我們還需要定義一個時間段。比如:在某個吞吐量上持續(xù)15分鐘。因為當負載到達的時候,系統(tǒng)會變得不穩(wěn)定,當過了一兩分鐘后,系統(tǒng)才會穩(wěn)定。另外,也有可能是,你的系統(tǒng)在這個負載下前幾分鐘還表現(xiàn)正常,然后就不穩(wěn)定了,甚至垮了。所以,需要這么一段時間。這個值,我們叫做峰值極限。
- 性能測試還需要做Soak Test,也就是在某個吞吐量下,系統(tǒng)可以持續(xù)跑一周甚至更長。這個值,我們叫做系統(tǒng)的正常運行的負載極限。
性能測試有很多很復(fù)要的東西,比如:burst test等。這里不能一一詳述,這里只說了一些和性能調(diào)優(yōu)相關(guān)的東西。總之,性能測試是一細活和累活。
有了上面的鋪墊,我們就可以測試到到系統(tǒng)的性能了,再調(diào)優(yōu)之前,我們先來說說如何找到性能的瓶頸。我見過很多朋友會覺得這很容易,但是仔細一問,其實他們并沒有一個比較系統(tǒng)的方法。
2.2查看操作系統(tǒng)負載
在排查 Linux 內(nèi)核性能問題時,查看操作系統(tǒng)負載是關(guān)鍵的第一步。通過這一操作,我們能夠了解系統(tǒng)當前的工作壓力,進而找出可能存在的性能瓶頸。
利用 top 命令,我們可以實時查看系統(tǒng)的整體運行狀態(tài)。在命令行中輸入 “top”,隨即會出現(xiàn)一個動態(tài)更新的界面,展示諸多重要信息。最上方的一行詳細呈現(xiàn)了 CPU 的使用情況,其中包括用戶空間進程使用的 CPU 時間百分比(us)、內(nèi)核空間進程使用的 CPU 時間百分比(sy)、被調(diào)整優(yōu)先級的用戶進程使用的 CPU 時間(ni)、空閑的 CPU 時間百分比(id)、等待 I/O 操作完成的 CPU 時間百分比(wa)、硬件中斷使用的 CPU 時間百分比(hi)、軟件中斷使用的 CPU 時間百分比(si)以及虛擬機管理程序等待其他虛擬 CPU 運行的時間百分比(st)。舉例來說,如果發(fā)現(xiàn) us 值較高,那就意味著用戶空間的進程消耗了大量 CPU 資源,此時我們就需要深入檢查這些進程,判斷是否存在異常或低效的代碼。
而 htop 命令則提供了更為直觀和豐富的信息展示。它以可視化的方式呈現(xiàn) CPU 的使用情況,不同顏色的條形圖分別代表不同類型的 CPU 負載,如綠色表示用戶進程使用的 CPU,紅色表示內(nèi)核進程使用的 CPU 等。同時,它還能清晰地顯示每個進程的詳細信息,包括進程 ID、用戶、優(yōu)先級、內(nèi)存使用量等。當我們懷疑某個進程對系統(tǒng)性能產(chǎn)生較大影響時,使用 htop 能夠更方便地定位和分析該進程。
SystemTap 是一款強大的動態(tài)內(nèi)核和用戶空間追蹤工具。它允許我們編寫腳本,對系統(tǒng)運行時的各種事件進行捕獲和分析。假設(shè)我們想要了解某個特定進程在執(zhí)行過程中對系統(tǒng)資源的占用情況,就可以編寫一個 SystemTap 腳本,專門針對該進程進行監(jiān)控。通過腳本,我們能夠獲取該進程的 CPU 利用率、內(nèi)存訪問頻率等詳細信息,從而精準定位問題所在。
LatencyTOP 則專注于檢測系統(tǒng)中的延遲問題。在運行 LatencyTOP 后,它會分析系統(tǒng)中各個進程的延遲情況,并將延遲較高的進程凸顯出來。例如,若 LatencyTOP 報告某個驅(qū)動程序進程的延遲過高,這可能表明該驅(qū)動程序存在性能缺陷,需要進一步優(yōu)化或更新。
首先,當我們系統(tǒng)有問題的時候,我們不要急于去調(diào)查我們代碼,這個毫無意義。我們首要需要看的是操作系統(tǒng)的報告。看看操作系統(tǒng)的CPU利用率,看看內(nèi)存使用率,看看操作系統(tǒng)的IO,還有網(wǎng)絡(luò)的IO,網(wǎng)絡(luò)鏈接數(shù),等等。Windows下的perfmon是一個很不錯的工具,Linux下也有很多相關(guān)的命令和工具,比如:SystemTap,LatencyTOP,vmstat, sar, iostat, top, tcpdump等等 。通過觀察這些數(shù)據(jù),我們就可以知道我們的軟件的性能基本上出在哪里。比如:
- 先看CPU利用率,如果CPU利用率不高,但是系統(tǒng)的Throughput和Latency上不去了,這說明我們的程序并沒有忙于計算,而是忙于別的一些事,比如IO。(另外,CPU的利用率還要看內(nèi)核態(tài)的和用戶態(tài)的,內(nèi)核態(tài)的一上去了,整個系統(tǒng)的性能就下來了。而對于多核CPU來說,CPU 0 是相當關(guān)鍵的,如果CPU 0的負載高,那么會影響其它核的性能,因為CPU各核間是需要有調(diào)度的,這靠CPU0完成)
- 然后,我們可以看一下IO大不大,IO和CPU一般是反著來的,CPU利用率高則IO不大,IO大則CPU就小。關(guān)于IO,我們要看三個事,一個是磁盤文件IO,一個是驅(qū)動程序的IO(如:網(wǎng)卡),一個是內(nèi)存換頁率。這三個事都會影響系統(tǒng)性能。
- 然后,查看一下網(wǎng)絡(luò)帶寬使用情況,在Linux下,你可以使用iftop, iptraf, ntop, tcpdump這些命令來查看。或是用Wireshark來查看。
- 如果CPU不高,IO不高,內(nèi)存使用不高,網(wǎng)絡(luò)帶寬使用不高。但是系統(tǒng)的性能上不去。這說明你的程序有問題,比如,你的程序被阻塞了。可能是因為等那個鎖,可能是因為等某個資源,或者是在切換上下文。
通過了解操作系統(tǒng)的性能,我們才知道性能的問題,比如:帶寬不夠,內(nèi)存不夠,TCP緩沖區(qū)不夠,等等,很多時候,不需要調(diào)整程序的,只需要調(diào)整一下硬件或操作系統(tǒng)的配置就可以了。
2.3使用Profiler測試
接下來,我們需要使用性能檢測工具,也就是使用某個Profiler來差看一下我們程序的運行性能。如:Java的JProfiler/TPTP/CodePro Profiler,GNU的gprof,IBM的PurifyPlus,Intel的VTune,AMD的CodeAnalyst,還有Linux下的OProfile/perf,后面兩個可以讓你對你的代碼優(yōu)化到CPU的微指令級別,如果你關(guān)心CPU的L1/L2的緩存調(diào)優(yōu),那么你需要考慮一下使用VTune。使用這些Profiler工具,可以讓你程序中各個模塊函數(shù)甚至指令的很多東西,如:運行的時間 ,調(diào)用的次數(shù),CPU的利用率,等等。這些東西對我們來說非常有用。
我們重點觀察運行時間最多,調(diào)用次數(shù)最多的那些函數(shù)和指令。這里注意一下,對于調(diào)用次數(shù)多但是時間很短的函數(shù),你可能只需要輕微優(yōu)化一下,你的性能就上去了(比如:某函數(shù)一秒種被調(diào)用100萬次,你想想如果你讓這個函數(shù)提高0.01毫秒的時間 ,這會給你帶來多大的性能)
使用Profiler有個問題我們需要注意一下,因為Profiler會讓你的程序運行的性能變低,像PurifyPlus這樣的工具會在你的代碼中插入很多代碼,會導(dǎo)致你的程序運行效率變低,從而沒發(fā)測試出在高吞吐量下的系統(tǒng)的性能,對此,一般有兩個方法來定位系統(tǒng)瓶頸:
- 在你的代碼中自己做統(tǒng)計,使用微秒級的計時器和函數(shù)調(diào)用計算器,每隔10秒把統(tǒng)計log到文件中。
- 分段注釋你的代碼塊,讓一些函數(shù)空轉(zhuǎn),做Hard Code的Mock,然后再測試一下系統(tǒng)的Throughput和Latency是否有質(zhì)的變化,如果有,那么被注釋的函數(shù)就是性能瓶頸,再在這個函數(shù)體內(nèi)注釋代碼,直到找到最耗性能的語句。
最后再說一點,對于性能測試,不同的Throughput會出現(xiàn)不同的測試結(jié)果,不同的測試數(shù)據(jù)也會有不同的測試結(jié)果。所以,用于性能測試的數(shù)據(jù)非常重要,性能測試中,我們需要觀測試不同Throughput的結(jié)果。
2.4剖析 IO 情況
IO 操作在系統(tǒng)性能中扮演著舉足輕重的角色,對其進行深入剖析,能幫助我們發(fā)現(xiàn)許多潛在的性能問題。
在磁盤文件 IO 方面,iostat 命令是我們的得力助手。通過執(zhí)行 “iostat -d -x 1”(其中 “-d” 表示僅顯示磁盤相關(guān)信息,“-x” 表示顯示更詳細的信息,“1” 表示每隔 1 秒輸出一次數(shù)據(jù)),我們可以獲取到每個磁盤設(shè)備的詳細統(tǒng)計信息。其中,“r/s” 代表每秒完成的讀次數(shù),“w/s” 代表每秒完成的寫次數(shù),“rkB/s” 表示每秒讀數(shù)據(jù)量,“wkB/s” 表示每秒寫數(shù)據(jù)量,“% util” 則表示設(shè)備的繁忙程度。當 “% util” 接近 100% 時,說明磁盤 I/O 系統(tǒng)已經(jīng)滿負荷運轉(zhuǎn),很可能成為系統(tǒng)性能的瓶頸。比如,在一個數(shù)據(jù)存儲服務(wù)器中,如果發(fā)現(xiàn)某個磁盤的 “% util” 長期保持在 95% 以上,那么就需要考慮對該磁盤進行優(yōu)化,如更換為更高性能的磁盤,或者對數(shù)據(jù)存儲方式進行調(diào)整。
iotop 命令能夠讓我們清晰地看到哪些進程正在大量占用磁盤 I/O 資源。執(zhí)行 “iotop” 后,會列出各個進程的 I/O 使用情況,包括讀速率、寫速率等。當我們發(fā)現(xiàn)某個進程的 I/O 讀寫速率異常高時,就需要進一步分析該進程的業(yè)務(wù)邏輯,看是否存在不合理的 I/O 操作。例如,某個備份進程在進行數(shù)據(jù)備份時,采用了頻繁的小文件讀寫方式,這可能會導(dǎo)致磁盤 I/O 性能下降,此時可以考慮優(yōu)化備份策略,采用大文件讀寫或者批量操作的方式。
驅(qū)動程序 IO 對系統(tǒng)性能的影響也不容小覷。如果驅(qū)動程序存在問題,可能會導(dǎo)致設(shè)備與系統(tǒng)之間的數(shù)據(jù)傳輸效率低下。以網(wǎng)絡(luò)驅(qū)動程序為例,若驅(qū)動程序版本過舊,可能無法充分發(fā)揮網(wǎng)卡的性能,導(dǎo)致網(wǎng)絡(luò)傳輸速度受限。在這種情況下,及時更新驅(qū)動程序往往能顯著提升系統(tǒng)性能。
內(nèi)存換頁率也是衡量系統(tǒng)性能的重要指標。vmstat 命令可以幫助我們查看內(nèi)存換頁情況。在輸出結(jié)果中,“si” 表示從磁盤交換到內(nèi)存的交換頁數(shù)量,“so” 表示從內(nèi)存交換到磁盤的交換頁數(shù)量。如果 “si” 和 “so” 的值較大,說明系統(tǒng)頻繁進行內(nèi)存換頁操作,這會嚴重影響系統(tǒng)性能。通常,這可能是由于內(nèi)存不足導(dǎo)致的。比如,在一個運行多個大型應(yīng)用程序的服務(wù)器上,如果發(fā)現(xiàn)內(nèi)存換頁率過高,就需要考慮增加物理內(nèi)存,或者對應(yīng)用程序的內(nèi)存使用進行優(yōu)化。
2.5洞察網(wǎng)絡(luò)帶寬使用
在網(wǎng)絡(luò)環(huán)境中,了解網(wǎng)絡(luò)帶寬的使用情況對于定位性能瓶頸至關(guān)重要。
iftop 是一款出色的實時流量監(jiān)控工具。通過執(zhí)行 “iftop -i eth0”(其中 “-i” 指定要監(jiān)測的網(wǎng)卡,“eth0” 是常見的網(wǎng)卡名稱),我們可以直觀地看到指定網(wǎng)卡的實時流量情況。在 iftop 的界面中,會清晰地顯示出各個 IP 地址之間的流量傳輸情況,包括發(fā)送流量(TX)、接收流量(RX)以及總流量(TOTAL)。同時,還能看到不同時間段的平均流量,如過去 2 秒、10 秒、40 秒的平均流量。這有助于我們快速發(fā)現(xiàn)哪些 IP 地址之間的流量過大,從而判斷是否存在網(wǎng)絡(luò)瓶頸。例如,在一個企業(yè)網(wǎng)絡(luò)中,如果發(fā)現(xiàn)某個 IP 地址與外部服務(wù)器之間的流量持續(xù)超過網(wǎng)絡(luò)帶寬的 80%,那么就需要進一步檢查該 IP 地址對應(yīng)的業(yè)務(wù),看是否存在數(shù)據(jù)傳輸異常的情況。
iptraf 同樣是一款功能強大的網(wǎng)絡(luò)流量監(jiān)測工具。它不僅可以實時監(jiān)測網(wǎng)絡(luò)接口的流量,還能提供詳細的網(wǎng)絡(luò)連接信息,如 TCP 連接、UDP 連接等。通過 “iptraf -g” 命令,我們可以進入圖形化界面,方便地查看各個網(wǎng)絡(luò)接口的流量統(tǒng)計信息。此外,iptraf 還支持按協(xié)議類型查看流量,這對于分析網(wǎng)絡(luò)中不同協(xié)議的使用情況非常有幫助。比如,在一個以 HTTP 協(xié)議為主的網(wǎng)絡(luò)環(huán)境中,如果發(fā)現(xiàn) HTTP 流量占比過高,導(dǎo)致其他業(yè)務(wù)的網(wǎng)絡(luò)帶寬受到擠壓,那么就可以考慮對 HTTP 業(yè)務(wù)進行優(yōu)化,如采用緩存技術(shù)、優(yōu)化頁面加載方式等,以減少網(wǎng)絡(luò)帶寬的占用。
三、性能調(diào)優(yōu)的方法
下面這些東西是我所經(jīng)歷過的一些問題,也許并不全,也許并不對,大家可以補充指正,我純屬拋磚引玉。一般來說,性能優(yōu)化也就是下面的幾個策略:
- 用空間換時間。各種cache如CPU L1/L2/RAM到硬盤,都是用空間來換時間的策略。這樣策略基本上是把計算的過程一步一步的保存或緩存下來,這樣就不用每次用的時候都要再計算一遍,比如數(shù)據(jù)緩沖,CDN,等。這樣的策略還表現(xiàn)為冗余數(shù)據(jù),比如數(shù)據(jù)鏡象,負載均衡什么的。
- 用時間換空間。有時候,少量的空間可能性能會更好,比如網(wǎng)絡(luò)傳輸,如果有一些壓縮數(shù)據(jù)的算法(如前些天說的“Huffman 編碼壓縮算法” 和 “rsync 的核心算法”),這樣的算法其實很耗時,但是因為瓶頸在網(wǎng)絡(luò)傳輸,所以用時間來換空間反而能省時間。
- 簡化代碼。最高效的程序就是不執(zhí)行任何代碼的程序,所以,代碼越少性能就越高。關(guān)于代碼級優(yōu)化的技術(shù)大學(xué)里的教科書有很多示例了。如:減少循環(huán)的層數(shù),減少遞歸,在循環(huán)中少聲明變量,少做分配和釋放內(nèi)存的操作,盡量把循環(huán)體內(nèi)的表達式抽到循環(huán)外,條件表達的中的多個條件判斷的次序,盡量在程序啟動時把一些東西準備好,注意函數(shù)調(diào)用的開銷(棧上開銷),注意面向?qū)ο笳Z言中臨時對象的開銷,小心使用異常(不要用異常來檢查一些可接受可忽略并經(jīng)常發(fā)生的錯誤),…… 等等,等等,這連東西需要我們非常了解編程語言和常用的庫。
- 并行處理。如果CPU只有一個核,你要玩多進程,多線程,對于計算密集型的軟件會反而更慢(因為操作系統(tǒng)調(diào)度和切換開銷很大),CPU的核多了才能真正體現(xiàn)出多進程多線程的優(yōu)勢。并行處理需要我們的程序有Scalability,不能水平或垂直擴展的程序無法進行并行處理。
從架構(gòu)上來說,這表再為——是否可以做到不改代碼只是加加機器就可以完成性能提升?
總之,根據(jù)2:8原則來說,20%的代碼耗了你80%的性能,找到那20%的代碼,你就可以優(yōu)化那80%的性能。下面的一些東西都是我的一些經(jīng)驗,我只例舉了一些最有價值的性能調(diào)優(yōu)的的方法,供你參考,也歡迎補充。
3.1算法調(diào)優(yōu)
算法非常重要,好的算法會有更好的性能。舉幾個我經(jīng)歷過的項目的例子,大家可以感覺一下。
- 一個是過濾算法,系統(tǒng)需要對收到的請求做過濾,我們把可以被filter in/out的東西配置在了一個文件中,原有的過濾算法是遍歷過濾配置,后來,我們找到了一種方法可以對這個過濾配置進行排序,這樣就可以用二分折半的方法來過濾,系統(tǒng)性能增加了50%。
- 一個是哈希算法。計算哈希算法的函數(shù)并不高效,一方面是計算太費時,另一方面是碰撞太高,碰撞高了就跟單向鏈表一個性能(可參看Hash Collision DoS 問題)。我們知道,算法都是和需要處理的數(shù)據(jù)很有關(guān)系的,就算是被大家所嘲笑的“冒泡排序”在某些情況下(大多數(shù)數(shù)據(jù)是排好序的)其效率會高于所有的排序算法。哈希算法也一樣,廣為人知的哈希算法都是用英文字典做測試,但是我們的業(yè)務(wù)在數(shù)據(jù)有其特殊性,所以,對于還需要根據(jù)自己的數(shù)據(jù)來挑選適合的哈希算法。對于我以前的一個項目,公司內(nèi)某牛人給我發(fā)來了一個哈希算法,結(jié)果讓我們的系統(tǒng)性能上升了150%。(關(guān)于各種哈希算法,你一定要看看StackExchange上的這篇關(guān)于各種hash算法的文章 )
分而治之和預(yù)處理。以前有一個程序為了生成月報表,每次都需要計算很長的時間,有時候需要花將近一整天的時間。于是我們把我們找到了一種方法可以把這個算法發(fā)成增量式的,也就是說我每天都把當天的數(shù)據(jù)計算好了后和前一天的報表合并,這樣可以大大的節(jié)省計算時間,每天的數(shù)據(jù)計算量只需要20分鐘,但是如果我要算整個月的,系統(tǒng)則需要10個小時以上(SQL語句在大數(shù)據(jù)量面前性能成級數(shù)性下降)。這種分而治之的思路在大數(shù)據(jù)面前對性能有很幫助,就像merge排序一樣。SQL語句和數(shù)據(jù)庫的性能優(yōu)化也是這一策略,如:使用嵌套式的Select而不是笛卡爾積的Select,使用視圖,等等。
3.2代碼調(diào)優(yōu)
從我的經(jīng)驗上來說,代碼上的調(diào)優(yōu)有下面這幾點:
字符串操作。這是最費系統(tǒng)性能的事了,無論是strcpy, strcat還是strlen,最需要注意的是字符串子串匹配。所以,能用整型最好用整型。舉幾個例子,第一個例子是N年前做銀行的時候,我的同事喜歡把日期存成字符串(如:2012-05-29 08:30:02),我勒個去,一個select where between語句相當耗時。另一個例子是,我以前有個同事把一些狀態(tài)碼用字符串來處理,他的理由是,這樣可以在界面上直接顯示,后來性能調(diào)優(yōu)的時候,我把這些狀態(tài)碼全改成整型,然后用位操作查狀態(tài),因為有一個每秒鐘被調(diào)用了150K次的函數(shù)里面有三處需要檢查狀態(tài),經(jīng)過改善以后,整個系統(tǒng)的性能上升了30%左右。還有一個例子是,我以前從事的某個產(chǎn)品編程規(guī)范中有一條是要在每個函數(shù)中把函數(shù)名定義出來,如:const char fname[]=”functionName()”, 這是為了好打日志,但是為什么不聲明成 static類型的呢?
多線程調(diào)優(yōu)。有人說,thread is evil,這個對于系統(tǒng)性能在某些時候是個問題。因為多線程瓶頸就在于互斥和同步的鎖上,以及線程上下文切換的成本,怎么樣的少用鎖或不用鎖是根本(比如:多版本并發(fā)控制(MVCC)在分布式系統(tǒng)中的應(yīng)用 中說的樂觀鎖可以解決性能問題),此外,還有讀寫鎖也可以解決大多數(shù)是讀操作的并發(fā)的性能問題。這里多說一點在C++中,我們可能會使用線程安全的智能指針AutoPtr或是別的一些容器,只要是線程安全的,其不管三七二十一都要上鎖,上鎖是個成本很高的操作,使用AutoPtr會讓我們的系統(tǒng)性能下降得很快,如果你可以保證不會有線程并發(fā)問題,那么你應(yīng)該不要用AutoPtr。
我記得我上次我們同事去掉智能指針的引用計數(shù),讓系統(tǒng)性能提升了50%以上。對于Java對象的引用計數(shù),如果我猜的沒錯的話,到處都是鎖,所以,Java的性能問題一直是個問題。另外,線程不是越多越好,線程間的調(diào)度和上下文切換也是很夸張的事,盡可能的在一個線程里干,盡可能的不要同步線程。這會讓你有很多的性能。
內(nèi)存分配。不要小看程序的內(nèi)存分配。malloc/realloc/calloc這樣的系統(tǒng)調(diào)非常耗時,尤其是當內(nèi)存出現(xiàn)碎片的時候。我以前的公司出過這樣一個問題——在用戶的站點上,我們的程序有一天不響應(yīng)了,用GDB跟進去一看,系統(tǒng)hang在了malloc操作上,20秒都沒有返回,重啟一些系統(tǒng)就好了。這就是內(nèi)存碎片的問題。這就是為什么很多人抱怨STL有嚴重的內(nèi)存碎片的問題,因為太多的小內(nèi)存的分配釋放了。有很多人會以為用內(nèi)存池可以解決這個問題,但是實際上他們只是重新發(fā)明了Runtime-C或操作系統(tǒng)的內(nèi)存管理機制,完全于事無補。
當然解決內(nèi)存碎片的問題還是通過內(nèi)存池,具體來說是一系列不同尺寸的內(nèi)存池(這個留給大家自己去思考)。當然,少進行動態(tài)內(nèi)存分配是最好的。說到內(nèi)存池就需要說一下池化技術(shù)。比如線程池,連接池等。池化技術(shù)對于一些短作業(yè)來說(如http服務(wù)) 相當相當?shù)挠行А_@項技術(shù)可以減少鏈接建立,線程創(chuàng)建的開銷,從而提高性能。
異步操作。我們知道Unix下的文件操作是有block和non-block的方式的,像有些系統(tǒng)調(diào)用也是block式的,如:Socket下的select,Windows下的WaitforObject之類的,如果我們的程序是同步操作,那么會非常影響性能,我們可以改成異步的,但是改成異步的方式會讓你的程序變復(fù)雜。異步方式一般要通過隊列,要注間隊列的性能問題,另外,異步下的狀態(tài)通知通常是個問題,比如消息事件通知方式,有callback方式,等,這些方式同樣可能會影響你的性能。但是通常來說,異步操作會讓性能的吞吐率有很大提升(Throughput),但是會犧牲系統(tǒng)的響應(yīng)時間(latency)。這需要業(yè)務(wù)上支持。
語言和代碼庫。我們要熟悉語言以及所使用的函數(shù)庫或類庫的性能。比如:STL中的很多容器分配了內(nèi)存后,那怕你刪除元素,內(nèi)存也不會回收,其會造成內(nèi)存泄露的假像,并可能造成內(nèi)存碎片問題。再如,STL某些容器的size()==0 和 empty()是不一樣的,因為,size()是O(n)復(fù)雜度,empty()是O(1)的復(fù)雜度,這個要小心。Java中的JVM調(diào)優(yōu)需要使用的這些參數(shù):-Xms -Xmx -Xmn -XX:SurvivorRatio -XX:MaxTenuringThreshold,還需要注意JVM的GC,GC的霸氣大家都知道,尤其是full GC(還整理內(nèi)存碎片),他就像“恐龍?zhí)丶壙速愄枴币粯樱\行的時候,整個世界的時間都停止了。
3.3網(wǎng)絡(luò)調(diào)優(yōu)
關(guān)于網(wǎng)絡(luò)調(diào)優(yōu),尤其是TCP Tuning(你可以以這兩個關(guān)鍵詞在網(wǎng)上找到很多文章),這里面有很多很多東西可以說。看看Linux下TCP/IP的那么多參數(shù)就知道了(順便說一下,你也許不喜歡Linux,但是你不能否認Linux給我們了很多可以進行內(nèi)核調(diào)優(yōu)的權(quán)力)。
⑴TCP調(diào)優(yōu)
我們知道TCP鏈接是有很多開銷的,一個是會占用文件描述符,另一個是會開緩存,一般來說一個系統(tǒng)可以支持的TCP鏈接數(shù)是有限的,我們需要清楚地認識到TCP鏈接對系統(tǒng)的開銷是很大的。正是因為TCP是耗資源的,所以,很多攻擊都是讓你系統(tǒng)上出現(xiàn)大量的TCP鏈接,把你的系統(tǒng)資源耗盡。比如著名的SYNC Flood攻擊。
所以,我們要注意配置KeepAlive參數(shù),這個參數(shù)的意思是定義一個時間,如果鏈接上沒有數(shù)據(jù)傳輸,系統(tǒng)會在這個時間發(fā)一個包,如果沒有收到回應(yīng),那么TCP就認為鏈接斷了,然后就會把鏈接關(guān)閉,這樣可以回收系統(tǒng)資源開銷。(注:HTTP層上也有KeepAlive參數(shù))對于像HTTP這樣的短鏈接,設(shè)置一個1-2分鐘的keepalive非常重要。這可以在一定程度上防止DoS攻擊。有下面幾個參數(shù)(下面這些參數(shù)的值僅供參考):
net. ipv4. tcp_ keepalive_ probes =5
net. ipv4.tcp. keepalive. intvl = 20
net. ipv4.tcp_ fin. timeout = 30
對于TCP的TIME_WAIT這個狀態(tài),主動關(guān)閉的一方進入TIME_WAIT狀態(tài),TIME_WAIT狀態(tài)將持續(xù)2個MSL(Max Segment Lifetime),默認為4分鐘,TIME_WAIT狀態(tài)下的資源不能回收。有大量的TIME_WAIT鏈接的情況一般是在HTTP服務(wù)器上。對此,有兩個參數(shù)需要注意:
net.ipv4.tcp_tw_ reuse = 1
net.ipv4.tcp_tw_ recycle = 1
前者表示重用TIME_WAIT,后者表示回收TIME_WAIT的資源。TCP還有一個重要的概念叫RWIN(TCP Receive Window Size),這個東西的意思是,我一個TCP鏈接在沒有向Sender發(fā)出ack時可以接收到的最大的數(shù)據(jù)包。為什么這個很重要?因為如果Sender沒有收到Receiver發(fā)過來ack,Sender就會停止發(fā)送數(shù)據(jù)并會等一段時間,如果超時,那么就會重傳。這就是為什么TCP鏈接是可靠鏈接的原因。重傳還不是最嚴重的,如果有丟包發(fā)生的話,TCP的帶寬使用率會馬上受到影響(會盲目減半),再丟包,再減半,然后如果不丟包了,就逐步恢復(fù)。相關(guān)參數(shù)如下:
net.core . wmem _default = 8388608
net. core . rmem_ default = 8388608
net. core. rmem max = 16777216
net. core .wmem max = 16777216
傳所有的數(shù)據(jù),反而影響網(wǎng)絡(luò)性能。(當然,網(wǎng)絡(luò)差的情況下,就別玩什么高性能了) 所以,高性能的網(wǎng)絡(luò)重要的是要讓網(wǎng)絡(luò)丟包率非常非常地小(基本上是用在LAN里),如果網(wǎng)絡(luò)基本是可信的,這樣用大一點的buffer會有更好的網(wǎng)絡(luò)傳輸性能(來來回回太多太影響性能了)。
另外,我們想一想,如果網(wǎng)絡(luò)質(zhì)量非常好,基本不丟包,而業(yè)務(wù)上我們不怕偶爾丟幾個包,如果是這樣的話,那么,我們?yōu)槭裁床挥盟俣雀斓腢DP呢?你想過這個問題了嗎?
⑵UDP調(diào)優(yōu)
說到UDP的調(diào)優(yōu),有一些事我想重點說一樣,那就是MTU——最大傳輸單元(其實這對TCP也一樣,因為這是鏈路層上的東西)。所謂最大傳輸單元,你可以想像成是公路上的公交車,假設(shè)一個公交車可以最多坐70人,帶寬就像是公路的車道數(shù)一樣,如果一條路上最多可以容下100輛公交車,那意味著我最多可以運送7000人,但是如果公交車坐不滿,比如平均每輛車只有20人,那么我只運送了2000人,于是我公路資源(帶寬資源)就被浪費了。所以,我們對于一個UDP的包,我們要盡量地讓他大到MTU的最大尺寸再往網(wǎng)絡(luò)上傳,這樣可以最大化帶寬利用率。對于這個MTU,以太網(wǎng)是1500字節(jié),光纖是4352字節(jié),802.11無線網(wǎng)是7981。
但是,當我們用TCP/UDP發(fā)包的時候,我們的有效負載Payload要低于這個值,因為IP協(xié)議會加上20個字節(jié),UDP會加上8個字節(jié)(TCP加的更多),所以,一般來說,你的一個UDP包的最大應(yīng)該是1500-8-20=1472,這是你的數(shù)據(jù)的大小。當然,如果你用光纖的話, 這個值就可以更大一些。(順便說一下,對于某些NB的千光以態(tài)網(wǎng)網(wǎng)卡來說,在網(wǎng)卡上,網(wǎng)卡硬件如果發(fā)現(xiàn)你的包的大小超過了MTU,其會幫你做fragment,到了目標端又會幫你做重組,這就不需要你在程序中處理了)
再多說一下,使用Socket編程的時候,你可以使用setsockopt() 設(shè)置 SO_SNDBUF/SO_RCVBUF 的大小,TTL和KeepAlive這些關(guān)鍵的設(shè)置,當然,還有很多,具體你可以查看一下Socket的手冊。
最后說一點,UDP還有一個最大的好處是multi-cast多播,這個技術(shù)對于你需要在內(nèi)網(wǎng)里通知多臺結(jié)點時非常方便和高效。而且,多播這種技術(shù)對于機會的水平擴展(需要增加機器來偵聽多播信息)也很有利。
⑶網(wǎng)卡調(diào)優(yōu)
對于網(wǎng)卡,我們也是可以調(diào)優(yōu)的,這對于千兆以及網(wǎng)網(wǎng)卡非常必要,在Linux下,我們可以用ifconfig查看網(wǎng)上的統(tǒng)計信息,如果我們看到overrun上有數(shù)據(jù),我們就可能需要調(diào)整一下txqueuelen的尺寸(一般默認為1000),我們可以調(diào)大一些,如:ifconfig eth0 txqueuelen 5000。Linux下還有一個命令叫:ethtool可以用于設(shè)置網(wǎng)卡的緩沖區(qū)大小。在Windows下,我們可以在網(wǎng)卡適配器中的高級選項卡中調(diào)整相關(guān)的參數(shù)(如:Receive Buffers, Transmit Buffer等,不同的網(wǎng)卡有不同的參數(shù))。把Buffer調(diào)大對于需要大數(shù)據(jù)量的網(wǎng)絡(luò)傳輸非常有效。
⑷其它網(wǎng)絡(luò)性能
關(guān)于多路復(fù)用技術(shù),也就是用一個線程來管理所有的TCP鏈接,有三個系統(tǒng)調(diào)用要重點注意:一個是select,這個系統(tǒng)調(diào)用只支持上限1024個鏈接,第二個是poll,其可以突破1024的限制,但是select和poll本質(zhì)上是使用的輪詢機制,輪詢機制在鏈接多的時候性能很差,因主是O(n)的算法,所以,epoll出現(xiàn)了,epoll是操作系統(tǒng)內(nèi)核支持的,僅當在鏈接活躍時,操作系統(tǒng)才會callback,這是由操作系統(tǒng)通知觸發(fā)的,但其只有Linux Kernel 2.6以后才支持(準確說是2.5.44中引入的),當然,如果所有的鏈接都是活躍的,過多的使用epoll_ctl可能會比輪詢的方式還影響性能,不過影響的不大。
另外,關(guān)于一些和DNS Lookup的系統(tǒng)調(diào)用要小心,比如:gethostbyaddr/gethostbyname,這個函數(shù)可能會相當?shù)馁M時,因為其要到網(wǎng)絡(luò)上去找域名,因為DNS的遞歸查詢,會導(dǎo)致嚴重超時,而又不能通過設(shè)置什么參數(shù)來設(shè)置time out,對此你可以通過配置hosts文件來加快速度,或是自己在內(nèi)存中管理對應(yīng)表,在程序啟動時查好,而不要在運行時每次都查。另外,在多線程下面,gethostbyname會一個更嚴重的問題,就是如果有一個線程的gethostbyname發(fā)生阻塞,其它線程都會在gethostbyname處發(fā)生阻塞,這個比較變態(tài),要小心。(你可以試試GNU的gethostbyname_r(),這個的性能要好一些) 這種到網(wǎng)上找信息的東西很多,比如,如果你的Linux使用了NIS,或是NFS,某些用戶或文件相關(guān)的系統(tǒng)調(diào)用就很慢,所以要小心。
3.4系統(tǒng)調(diào)優(yōu)
⑴I/O模型
前面說到過select/poll/epoll這三個系統(tǒng)調(diào)用,我們都知道,Unix/Linux下把所有的設(shè)備都當成文件來進行I/O,所以,那三個操作更應(yīng)該算是I/O相關(guān)的系統(tǒng)調(diào)用。說到 I/O模型,這對于我們的I/O性能相當重要,我們知道,Unix/Linux經(jīng)典的I/O方式是(關(guān)于Linux下的I/O模型,大家可以讀一下這篇文章《使用異步I/O大大提高性能》):
- 第一種,同步阻塞式I/O,這個不說了。
- 第二種,同步無阻塞方式。其通過fctnl設(shè)置 O_NONBLOCK 來完成。
- 第三種,對于select/poll/epoll這三個是I/O不阻塞,但是在事件上阻塞,算是:I/O異步,事件同步的調(diào)用。
- 第四種,AIO方式。這種I/O 模型是一種處理與 I/O 并行的模型。I/O請求會立即返回,說明請求已經(jīng)成功發(fā)起了。在后臺完成I/O操作時,向應(yīng)用程序發(fā)起通知,通知有兩種方式:一種是產(chǎn)生一個信號,另一種是執(zhí)行一個基于線程的回調(diào)函數(shù)來完成這次 I/O 處理過程。
第四種因為沒有任何的阻塞,無論是I/O上,還是事件通知上,所以,其可以讓你充分地利用CPU,比起第二種同步無阻塞好處就是,第二種要你一遍一遍地去輪詢。Nginx之所所以高效,是其使用了epoll和AIO的方式來進行I/O的。
再說一下Windows下的I/O模型:
- a)一個是WriteFile系統(tǒng)調(diào)用,這個系統(tǒng)調(diào)用可以是同步阻塞的,也可以是同步無阻塞的,關(guān)于看文件是不是以O(shè)verlapped打開的。關(guān)于同步無阻塞,需要設(shè)置其最后一個參數(shù)Overlapped,微軟叫Overlapped I/O,你需要WaitForSingleObject才能知道有沒有寫完成。這個系統(tǒng)調(diào)用的性能可想而知。
- b)另一個叫WriteFileEx的系統(tǒng)調(diào)用,其可以實現(xiàn)異步I/O,并可以讓你傳入一個callback函數(shù),等I/O結(jié)束后回調(diào)之, 但是這個回調(diào)的過程Windows是把callback函數(shù)放到了APC(Asynchronous Procedure Calls)的隊列中,然后,只用當應(yīng)用程序當前線程成為可被通知狀態(tài)(Alterable)時,才會被回調(diào)。只有當你的線程使用了這幾個函數(shù)時WaitForSingleObjectEx, WaitForMultipleObjectsEx, MsgWaitForMultipleObjectsEx, SignalObjectAndWait 和 SleepEx,線程才會成為Alterable狀態(tài)。可見,這個模型,還是有wait,所以性能也不高。
- c)然后是IOCP – IO Completion Port,IOCP會把I/O的結(jié)果放在一個隊列中,但是,偵聽這個隊列的不是主線程,而是專門來干這個事的一個或多個線程去干(老的平臺要你自己創(chuàng)建線程,新的平臺是你可以創(chuàng)建一個線程池)。IOCP是一個線程池模型。這個和Linux下的AIO模型比較相似,但是實現(xiàn)方式和使用方式完全不一樣。
當然,真正提高I/O性能方式是把和外設(shè)的I/O的次數(shù)降到最低,最好沒有,所以,對于讀來說,內(nèi)存cache通常可以從質(zhì)上提升性能,因為內(nèi)存比外設(shè)快太多了。對于寫來說,cache住要寫的數(shù)據(jù),少寫幾次,但是cache帶來的問題就是實時性的問題,也就是latency會變大,我們需要在寫的次數(shù)上和相應(yīng)上做權(quán)衡。
⑵多核CPU調(diào)優(yōu)
關(guān)于CPU的多核技術(shù),我們知道,CPU0是很關(guān)鍵的,如果0號CPU被用得過狠的話,別的CPU性能也會下降,因為CPU0是有調(diào)整功能的,所以,我們不能任由操作系統(tǒng)負載均衡,因為我們自己更了解自己的程序,所以,我們可以手動地為其分配CPU核,而不會過多地占用CPU0,或是讓我們關(guān)鍵進程和一堆別的進程擠在一起。
- 對于Windows來說,我們可以通過“任務(wù)管理器”中的“進程”而中右鍵菜單中的“設(shè)置相關(guān)性……”(Set Affinity…)來設(shè)置并限制這個進程能被運行在哪些核上。
- 對于Linux來說,可以使用taskset命令來設(shè)置(你可以通過安裝schedutils來安裝這個命令:apt-get install schedutils)
多核CPU還有一個技術(shù)叫NUMA技術(shù)(Non-Uniform Memory Access)。傳統(tǒng)的多核運算是使用SMP(Symmetric Multi-Processor )模式,多個處理器共享一個集中的存儲器和I/O總線。于是就會出現(xiàn)一致存儲器訪問的問題,一致性通常意味著性能問題。NUMA模式下,處理器被劃分成多個node, 每個node有自己的本地存儲器空間。關(guān)于NUMA的一些技術(shù)細節(jié),你可以查看一下這篇文章《Linux 的 NUMA 技術(shù)》,在Linux下,對NUMA調(diào)優(yōu)的命令是:numactl 。如下面的命令:(指定命令“myprogram arg1 arg2”運行在node 0 上,其內(nèi)存分配在node 0 和 1上)
1 | numactl --cpubind=0 --membind=0,1 myprogram arg1 arg2 |
當然,上面這個命令并不好,因為內(nèi)存跨越了兩個node,這非常不好。最好的方式是只讓程序訪問和自己運行一樣的node,如:
1 | $ numactl --membind 1 --cpunodebind 1 --localalloc myapplication |
⑶文件系統(tǒng)調(diào)優(yōu)
關(guān)于文件系統(tǒng),因為文件系統(tǒng)也是有cache的,所以,為了讓文件系統(tǒng)有最大的性能。首要的事情就是分配足夠大的內(nèi)存,這個非常關(guān)鍵,在Linux下可以使用free命令來查看 free/used/buffers/cached,理想來說,buffers和cached應(yīng)該有40%左右。然后是一個快速的硬盤控制器,SCSI會好很多。最快的是Intel SSD 固態(tài)硬盤,速度超快,但是寫次數(shù)有限。
接下來,我們就可以調(diào)優(yōu)文件系統(tǒng)配置了,對于Linux的Ext3/4來說,幾乎在所有情況下都有所幫助的一個參數(shù)是關(guān)閉文件系統(tǒng)訪問時間,在/etc/fstab下看看你的文件系統(tǒng) 有沒有noatime參數(shù)(一般來說應(yīng)該有),還有一個是dealloc,它可以讓系統(tǒng)在最后時刻決定寫入文件發(fā)生時使用哪個塊,可優(yōu)化這個寫入程序。還要注間一下三種日志模式:data=journal、data=ordered和data=writeback。默認設(shè)置data=ordered提供性能和防護之間的最佳平衡。
當然,對于這些來說,ext4的默認設(shè)置基本上是最佳優(yōu)化了。
這里介紹一個Linux下的查看I/O的命令—— iotop,可以讓你看到各進程的磁盤讀寫的負載情況。
其它還有一些關(guān)于NFS、XFS的調(diào)優(yōu),大家可以上google搜索一些相關(guān)優(yōu)化的文章看看。關(guān)于各文件系統(tǒng),大家可以看一下這篇文章——《Linux日志文件系統(tǒng)及性能分析》
3.5數(shù)據(jù)庫調(diào)優(yōu)
數(shù)據(jù)庫調(diào)優(yōu)并不是我的強項,我就僅用我非常有限的知識說上一些吧。注意,下面的這些東西并不一定正確,因為在不同的業(yè)務(wù)場景,不同的數(shù)據(jù)庫設(shè)計下可能會得到完全相反的結(jié)論,所以,我僅在這里做一些一般性的說明,具體問題還要具體分析。
⑴數(shù)據(jù)庫引擎調(diào)優(yōu)
我對數(shù)據(jù)庫引擎不是熟,但是有幾個事情我覺得是一定要去了解的。
數(shù)據(jù)庫的鎖的方式。這個非常非常地重要。并發(fā)情況下,鎖是非常非常影響性能的。各種隔離級別,行鎖,表鎖,頁鎖,讀寫鎖,事務(wù)鎖,以及各種寫優(yōu)先還是讀優(yōu)先機制。性能最高的是不要鎖,所以,分庫分表,冗余數(shù)據(jù),減少一致性事務(wù)處理,可以有效地提高性能。NoSQL就是犧牲了一致性和事務(wù)處理,并冗余數(shù)據(jù),從而達到了分布式和高性能。
數(shù)據(jù)庫的存儲機制。不但要搞清楚各種類型字段是怎么存儲的,更重要的是數(shù)據(jù)庫的數(shù)據(jù)存儲方式,是怎么分區(qū)的,是怎么管理的,比如Oracle的數(shù)據(jù)文件,表空間,段,等等。了解清楚這個機制可以減輕很多的I/O負載。比如:MySQL下使用show engines;可以看到各種存儲引擎的支持。不同的存儲引擎有不同的側(cè)重點,針對不同的業(yè)務(wù)或數(shù)據(jù)庫設(shè)計會讓你有不同的性能。
數(shù)據(jù)庫的分布式策略。最簡單的就是復(fù)制或鏡像,需要了解分布式的一致性算法,或是主主同步,主從同步。通過了解這種技術(shù)的機理可以做到數(shù)據(jù)庫級別的水平擴展。
⑵SQL語句優(yōu)化
關(guān)于SQL語句的優(yōu)化,首先也是要使用工具,比如:MySQL SQL Query Analyzer,Oracle SQL Performance Analyzer,或是微軟SQL Query Analyzer,基本上來說,所有的RMDB都會有這樣的工具,來讓你查看你的應(yīng)用中的SQL的性能問題。還可以使用explain來看看SQL語句最終Execution Plan會是什么樣的。
還有一點很重要,數(shù)據(jù)庫的各種操作需要大量的內(nèi)存,所以服務(wù)器的內(nèi)存要夠,優(yōu)其應(yīng)對那些多表查詢的SQL語句,那是相當?shù)暮膬?nèi)存。
下面我根據(jù)我有限的數(shù)據(jù)庫SQL的知識說幾個會有性能問題的SQL:
全表檢索。比如:select * from user where lastname = “xxxx”,這樣的SQL語句基本上是全表查找,線性復(fù)雜度O(n),記錄數(shù)越多,性能也越差(如:100條記錄的查找要50ms,一百萬條記錄需要5分鐘)。對于這種情況,我們可以有兩種方法提高性能:一種方法是分表,把記錄數(shù)降下來,另一種方法是建索引(為lastname建索引)。索引就像是key-value的數(shù)據(jù)結(jié)構(gòu)一樣,key就是where后面的字段,value就是物理行號,對索引的搜索復(fù)雜度是基本上是O(log(n)) ——用B-Tree實現(xiàn)索引(如:100條記錄的查找要50ms,一百萬條記錄需要100ms)。
索引。對于索引字段,最好不要在字段上做計算、類型轉(zhuǎn)換、函數(shù)、空值判斷、字段連接操作,這些操作都會破壞索引原本的性能。當然,索引一般都出現(xiàn)在Where或是Order by字句中,所以對Where和Order by子句中的子段最好不要進行計算操作,或是加上什么NOT之類的,或是使用什么函數(shù)。
多表查詢。關(guān)系型數(shù)據(jù)庫最多的操作就是多表查詢,多表查詢主要有三個關(guān)鍵字,EXISTS,IN和JOIN(關(guān)于各種join,可以參看圖解SQL的Join一文)。基本來說,現(xiàn)代的數(shù)據(jù)引擎對SQL語句優(yōu)化得都挺好的,JOIN和IN/EXISTS在結(jié)果上有些不同,但性能基本上都差不多。有人說,EXISTS的性能要好于IN,IN的性能要好于JOIN,我各人覺得,這個還要看你的數(shù)據(jù)、schema和SQL語句的復(fù)雜度,對于一般的簡單的情況來說,都差不多,所以千萬不要使用過多的嵌套,千萬不要讓你的SQL太復(fù)雜,寧可使用幾個簡單的SQL也不要使用一個巨大無比的嵌套N級的SQL。還有人說,如果兩個表的數(shù)據(jù)量差不多,Exists的性能可能會高于In,In可能會高于Join,如果這兩個表一大一小,那么子查詢中,Exists用大表,In則用小表。這個,我沒有驗證過,放在這里讓大家討論吧。另,有一篇關(guān)于SQL Server的文章大家可以看看《IN vs JOIN vs EXISTS》
JOIN操作。有人說,Join表的順序會影響性能,只要Join的結(jié)果集是一樣,性能和join的次序無關(guān)。因為后臺的數(shù)據(jù)庫引擎會幫我們優(yōu)化的。Join有三種實現(xiàn)算法,嵌套循環(huán),排序歸并,和Hash式的Join。(MySQL只支持第一種)
嵌套循環(huán),就好像是我們常見的多重嵌套循環(huán)。注意,前面的索引說過,數(shù)據(jù)庫的索引查找算法用的是B-Tree,這是O(log(n))的算法,所以,整個算法復(fù)法度應(yīng)該是O(log(n)) * O(log(m)) 這樣的。
Hash式的Join,主要解決嵌套循環(huán)的O(log(n))的復(fù)雜,使用一個臨時的hash表來標記。
排序歸并,意思是兩個表按照查詢字段排好序,然后再合并。當然,索引字段一般是排好序的。
還是那句話,具體要看什么樣的數(shù)據(jù),什么樣的SQL語句,你才知道用哪種方法是最好的。
部分結(jié)果集。我們知道MySQL里的Limit關(guān)鍵字,Oracle里的rownum,SQL Server里的Top都是在限制前幾條的返回結(jié)果。這給了我們數(shù)據(jù)庫引擎很多可以調(diào)優(yōu)的空間。一般來說,返回top n的記錄數(shù)據(jù)需要我們使用order by,注意在這里我們需要為order by的字段建立索引。有了被建索引的order by后,會讓我們的select語句的性能不會被記錄數(shù)的所影響。使用這個技術(shù),一般來說我們前臺會以分頁方式來顯現(xiàn)數(shù)據(jù),Mysql用的是OFFSET,SQL Server用的是FETCH NEXT,這種Fetch的方式其實并不好是線性復(fù)雜度,所以,如果我們能夠知道order by字段的第二頁的起始值,我們就可以在where語句里直接使用>=的表達式來select,這種技術(shù)叫seek,而不是fetch,seek的性能比fetch要高很多。
- 字符串。正如我前面所說的,字符串操作對性能上有非常大的惡夢,所以,能用數(shù)據(jù)的情況就用數(shù)字,比如:時間,工號,等。
- 全文檢索。千萬不要用Like之類的東西來做全文檢索,如果要玩全文檢索,可以嘗試使用Sphinx。
- 其它。
- 不要select *,而是明確指出各個字段,如果有多個表,一定要在字段名前加上表名,不要讓引擎去算。
- 不要用Having,因為其要遍歷所有的記錄。性能差得不能再差。
- 盡可能地使用UNION ALL 取代 UNION。
- 索引過多,insert和delete就會越慢。而update如果update多數(shù)索引,也會慢,但是如果只update一個,則只會影響一個索引表。
- 等等。
四、內(nèi)核性能調(diào)優(yōu)實戰(zhàn)技巧
4.1內(nèi)存相關(guān)參數(shù)調(diào)整
在 Linux 系統(tǒng)中,內(nèi)存管理對于系統(tǒng)性能起著舉足輕重的作用。合理調(diào)整內(nèi)存相關(guān)參數(shù),能夠顯著提升系統(tǒng)的運行效率和穩(wěn)定性。
vm.swappiness 是一個關(guān)鍵的內(nèi)存參數(shù),它主要用于控制系統(tǒng)在內(nèi)存不足時將頁面交換到磁盤交換空間(swap)的傾向程度 。該參數(shù)的取值范圍是 0 - 100,默認值為 60。當 vm.swappiness 的值設(shè)置得較高時,比如接近 100,系統(tǒng)會更頻繁地使用磁盤交換空間。這在物理內(nèi)存不足的情況下,雖然能暫時滿足系統(tǒng)對內(nèi)存的需求,但由于磁盤 I/O 操作的速度遠遠慢于內(nèi)存訪問速度,會導(dǎo)致系統(tǒng)性能大幅下降。相反,如果將 vm.swappiness 的值設(shè)置得較低,如 10 或 20,系統(tǒng)則會盡量避免使用交換空間,優(yōu)先使用物理內(nèi)存。這對于那些對性能要求較高、內(nèi)存使用頻繁的應(yīng)用場景來說非常重要。
例如,在一個運行著數(shù)據(jù)庫服務(wù)器的 Linux 系統(tǒng)中,如果數(shù)據(jù)庫操作頻繁且對響應(yīng)速度要求極高,將 vm.swappiness 設(shè)置為 10,可以減少磁盤交換操作,提高數(shù)據(jù)庫的讀寫性能,從而提升整個系統(tǒng)的響應(yīng)速度。調(diào)整 vm.swappiness 參數(shù)的方法很簡單,我們可以通過修改 /etc/sysctl.conf 文件來實現(xiàn)。在該文件中添加或修改 “vm.swappiness = [想要的值]” 這一行,然后執(zhí)行 “sysctl -p” 命令使配置生效。
vm.overcommit_memory 參數(shù)則控制系統(tǒng)是否允許超額分配內(nèi)存 。它有三個可選值:0、1 和 2。當取值為 0 時,這是系統(tǒng)的默認設(shè)置,內(nèi)核會嘗試估算當前系統(tǒng)剩余的可用內(nèi)存,只有在估算認為內(nèi)存分配請求不會導(dǎo)致系統(tǒng)內(nèi)存不足時,才會允許分配內(nèi)存。當取值為 1 時,內(nèi)核會允許超量使用內(nèi)存,直到物理內(nèi)存被耗盡為止。這種設(shè)置適用于那些對內(nèi)存需求有明確預(yù)估,且在內(nèi)存使用上比較保守的應(yīng)用場景。比如在一些科學(xué)計算任務(wù)中,應(yīng)用程序能夠準確控制自身的內(nèi)存使用量,設(shè)置為 1 可以充分利用系統(tǒng)內(nèi)存資源,提高計算效率。
當取值為 2 時,內(nèi)核會采用一種嚴格的內(nèi)存分配算法,確保系統(tǒng)的整個內(nèi)存地址空間(包括物理內(nèi)存和交換空間)不會超過 “swap + 50% 的 RAM 值”。這是一種非常保守的設(shè)置,能有效防止系統(tǒng)因內(nèi)存過度分配而崩潰。調(diào)整 vm.overcommit_memory 參數(shù)同樣可以通過修改 /etc/sysctl.conf 文件來完成。在文件中添加或修改 “vm.overcommit_memory = [想要的值]”,然后執(zhí)行 “sysctl -p” 命令使更改生效。
4.2網(wǎng)絡(luò)相關(guān)參數(shù)調(diào)整
在當今網(wǎng)絡(luò)互聯(lián)的時代,網(wǎng)絡(luò)性能的優(yōu)劣直接影響著系統(tǒng)的整體表現(xiàn)。通過合理調(diào)整網(wǎng)絡(luò)相關(guān)的內(nèi)核參數(shù),能夠有效提升網(wǎng)絡(luò)的吞吐量、降低延遲,確保系統(tǒng)在網(wǎng)絡(luò)通信方面的高效穩(wěn)定。
net.core.somaxconn 參數(shù)定義了 TCP 連接的最大排隊數(shù)量 ,也就是當服務(wù)器在監(jiān)聽某個端口時,處于等待狀態(tài)的最大 TCP 連接請求數(shù)。其默認值通常為 128,在一些高并發(fā)的網(wǎng)絡(luò)應(yīng)用場景中,這個值可能顯得過小。比如在一個大型的電商網(wǎng)站服務(wù)器上,在促銷活動期間,大量用戶同時訪問服務(wù)器,發(fā)起海量的 TCP 連接請求。如果 net.core.somaxconn 的值仍然保持默認的 128,那么當?shù)却B接的請求數(shù)超過這個值時,后續(xù)的連接請求就可能會被丟棄,導(dǎo)致用戶無法正常訪問網(wǎng)站,嚴重影響用戶體驗和業(yè)務(wù)的正常開展。
為了應(yīng)對這種高并發(fā)的情況,我們可以根據(jù)服務(wù)器的實際性能和預(yù)估的并發(fā)連接數(shù),將 net.core.somaxconn 的值適當增大,比如設(shè)置為 1024 或更高。這樣可以讓服務(wù)器能夠容納更多的等待連接請求,避免因連接隊列溢出而造成的連接失敗問題。要調(diào)整 net.core.somaxconn 參數(shù),可以編輯 /etc/sysctl.conf 文件,添加或修改 “net.core.somaxconn = [想要的值]” 這一行,之后執(zhí)行 “sysctl -p” 命令使新的配置生效。
net.ipv4.tcp_syncookies 是一個用于應(yīng)對 SYN 洪水攻擊的重要參數(shù) 。SYN 洪水攻擊是一種常見的網(wǎng)絡(luò)攻擊方式,攻擊者通過向目標服務(wù)器發(fā)送大量偽造的 SYN 請求,耗盡服務(wù)器的連接資源,從而使服務(wù)器無法正常處理合法的連接請求。當 net.ipv4.tcp_syncookies 設(shè)置為 1 時,系統(tǒng)啟用 syncookies 機制。在這種機制下,當服務(wù)器接收到 SYN 請求時,如果發(fā)現(xiàn) SYN 隊列已滿,它不會直接丟棄該請求,而是根據(jù)接收到的 SYN 包中的信息計算出一個特殊的 cookie 值,并將其作為 SYN + ACK 包的序列號發(fā)送給客戶端。
客戶端在收到 SYN + ACK 包后,會將這個 cookie 值包含在 ACK 包中回傳給服務(wù)器。服務(wù)器通過驗證這個 cookie 值,來確認該連接請求的合法性,從而在不占用過多系統(tǒng)資源的情況下,有效地抵御 SYN 洪水攻擊。而當 net.ipv4.tcp_syncookies 設(shè)置為 0 時,系統(tǒng)則不啟用 syncookies 機制。對于那些面臨較高網(wǎng)絡(luò)安全風(fēng)險,尤其是可能遭受 SYN 洪水攻擊的服務(wù)器來說,將 net.ipv4.tcp_syncookies 設(shè)置為 1 是一個非常必要的安全措施。與前面的參數(shù)調(diào)整方法類似,我們可以通過修改 /etc/sysctl.conf 文件,添加或修改 “net.ipv4.tcp_syncookies = 1” 這一行,并執(zhí)行 “sysctl -p” 命令來使設(shè)置生效。
4.3文件系統(tǒng)相關(guān)參數(shù)調(diào)整
文件系統(tǒng)是 Linux 系統(tǒng)中數(shù)據(jù)存儲和管理的核心部分,其性能的好壞直接關(guān)系到系統(tǒng)對文件的讀寫效率,進而影響整個系統(tǒng)的運行速度。通過優(yōu)化文件系統(tǒng)相關(guān)的內(nèi)核參數(shù),可以顯著提升文件系統(tǒng)的性能,滿足不同應(yīng)用場景下對文件操作的高效需求。
fs.file - max 參數(shù)用于指定系統(tǒng)中所有進程總共能夠打開的最大文件句柄數(shù)量 。文件句柄是系統(tǒng)用于標識和管理打開文件的一種資源,每個進程在進行文件操作時,都需要獲取相應(yīng)的文件句柄。在一些大規(guī)模的數(shù)據(jù)處理應(yīng)用場景中,例如一個數(shù)據(jù)倉庫系統(tǒng),可能需要同時處理大量的文件,包括讀取數(shù)據(jù)文件進行分析、寫入結(jié)果文件等操作。如果 fs.file - max 的值設(shè)置得過低,當進程打開的文件句柄數(shù)量達到這個上限時,后續(xù)的文件打開操作就會失敗,導(dǎo)致應(yīng)用程序無法正常運行。
為了確保這類應(yīng)用能夠順利進行,我們需要根據(jù)實際的業(yè)務(wù)需求和系統(tǒng)資源情況,合理地增大 fs.file - max 的值。例如,如果系統(tǒng)的內(nèi)存資源充足,且預(yù)計在高峰時期需要同時打開數(shù)萬個文件句柄,那么可以將 fs.file - max 設(shè)置為一個較大的值,如 1048576。調(diào)整 fs.file - max 參數(shù)的方式是在 /etc/sysctl.conf 文件中添加或修改 “fs.file - max = [想要的值]” 這一行,然后執(zhí)行 “sysctl -p” 命令,使新的配置生效,讓系統(tǒng)能夠支持更多的文件句柄打開操作。
fs.aio - max - nr 參數(shù)主要控制著系統(tǒng)中允許的并發(fā)異步 I/O 請求的最大數(shù)量 。異步 I/O 是一種高效的文件 I/O 操作方式,它允許應(yīng)用程序在發(fā)起 I/O 請求后,無需等待 I/O 操作完成,就可以繼續(xù)執(zhí)行其他任務(wù),從而提高系統(tǒng)的并發(fā)處理能力和整體性能。在一些對 I/O 操作性能要求極高的場景中,如數(shù)據(jù)庫的讀寫操作、大數(shù)據(jù)的實時處理等,大量的并發(fā)異步 I/O 請求能夠充分利用系統(tǒng)資源,加快數(shù)據(jù)的傳輸速度。如果 fs.aio - max - nr 的值設(shè)置得過小,那么系統(tǒng)能夠同時處理的異步 I/O 請求數(shù)量就會受到限制,無法充分發(fā)揮異步 I/O 的優(yōu)勢。
例如,在一個高性能的數(shù)據(jù)庫服務(wù)器中,可能需要同時處理成千上萬的并發(fā)異步 I/O 請求來滿足大量用戶的讀寫需求。此時,將 fs.aio - max - nr 設(shè)置為一個較大的值,如 102400,能夠確保系統(tǒng)有足夠的能力處理這些并發(fā)請求,提高數(shù)據(jù)庫的響應(yīng)速度和吞吐量。要調(diào)整 fs.aio - max - nr 參數(shù),同樣需要編輯 /etc/sysctl.conf 文件,在其中添加或修改 “fs.aio - max - nr = [想要的值]”,之后執(zhí)行 “sysctl -p” 命令,使系統(tǒng)按照新的配置來管理并發(fā)異步 I/O 請求。
五、調(diào)優(yōu)案例深度剖析
5.1案例背景介紹
某在線教育平臺,隨著業(yè)務(wù)的迅猛發(fā)展,用戶數(shù)量呈現(xiàn)爆發(fā)式增長。原本運行流暢的系統(tǒng),在高并發(fā)的訪問壓力下,逐漸暴露出性能問題。用戶反饋在觀看課程視頻時,經(jīng)常出現(xiàn)卡頓現(xiàn)象,視頻加載緩慢,甚至有時會出現(xiàn)長時間無法加載的情況。在進行課程互動,如提交作業(yè)、參與討論等操作時,響應(yīng)時間也明顯變長,嚴重影響了用戶的學(xué)習(xí)體驗。
該平臺的服務(wù)器基于 Linux 系統(tǒng)搭建,采用了常見的 LAMP 架構(gòu)(Linux + Apache + MySQL + PHP)。面對日益嚴峻的性能挑戰(zhàn),平臺的技術(shù)團隊決定深入排查問題,并對 Linux 內(nèi)核進行性能調(diào)優(yōu),以提升系統(tǒng)的整體性能和穩(wěn)定性。
5.2問題排查過程
技術(shù)團隊首先對系統(tǒng)的運行日志進行了詳細分析。通過查看 Apache 服務(wù)器的日志,發(fā)現(xiàn)大量的請求超時記錄,這表明服務(wù)器在處理用戶請求時遇到了困難,無法及時響應(yīng)。同時,MySQL 數(shù)據(jù)庫的日志中也出現(xiàn)了一些慢查詢記錄,這意味著數(shù)據(jù)庫的查詢性能可能受到了影響。
為了進一步確定性能瓶頸所在,團隊使用了 top 命令來實時監(jiān)控系統(tǒng)的資源使用情況。結(jié)果發(fā)現(xiàn),CPU 的使用率長時間保持在高位,尤其是在用戶訪問高峰期,幾乎達到了 100%。通過分析 top 命令的輸出,發(fā)現(xiàn)一些與視頻處理和數(shù)據(jù)庫查詢相關(guān)的進程占用了大量的 CPU 資源。
接著,團隊使用 iostat 命令來檢查磁盤 I/O 情況。從輸出結(jié)果可以看出,磁盤的讀寫速度較慢,尤其是在讀取視頻文件時,磁盤的繁忙程度(% util)接近 100%,這表明磁盤 I/O 可能成為了系統(tǒng)性能的瓶頸。
在網(wǎng)絡(luò)方面,團隊使用 iftop 命令來監(jiān)控網(wǎng)絡(luò)帶寬的使用情況。發(fā)現(xiàn)網(wǎng)絡(luò)帶寬在高并發(fā)情況下被大量占用,尤其是視頻傳輸所占用的帶寬較大,導(dǎo)致其他業(yè)務(wù)的網(wǎng)絡(luò)請求受到影響。
5.3調(diào)優(yōu)措施實施
針對排查出的問題,技術(shù)團隊采取了一系列針對性的調(diào)優(yōu)措施。
在 CPU 方面,對一些與視頻處理相關(guān)的進程進行了優(yōu)化,通過調(diào)整算法和代碼邏輯,減少了不必要的計算量。同時,啟用了 CPU 的多核特性,將一些任務(wù)分配到不同的核心上并行處理,提高了 CPU 的利用率。
對于磁盤 I/O 問題,將存儲視頻文件的磁盤更換為更高性能的固態(tài)硬盤(SSD),顯著提升了磁盤的讀寫速度。此外,對數(shù)據(jù)庫的查詢語句進行了優(yōu)化,減少了不必要的磁盤訪問,并添加了適當?shù)乃饕涌炝藬?shù)據(jù)的檢索速度。
在網(wǎng)絡(luò)方面,對視頻傳輸進行了優(yōu)化,采用了流媒體技術(shù),實現(xiàn)了視頻的分段傳輸和緩存,減少了網(wǎng)絡(luò)帶寬的占用。同時,調(diào)整了網(wǎng)絡(luò)相關(guān)的內(nèi)核參數(shù),如增大了 net.core.somaxconn 的值,以提高服務(wù)器能夠處理的并發(fā)連接數(shù)。
5.4調(diào)優(yōu)效果展示
經(jīng)過一系列的調(diào)優(yōu)措施實施后,系統(tǒng)的性能得到了顯著提升。視頻加載速度明顯加快,卡頓現(xiàn)象幾乎消失,用戶在觀看課程視頻時能夠享受到流暢的體驗。在課程互動方面,提交作業(yè)、參與討論等操作的響應(yīng)時間大幅縮短,用戶能夠及時得到反饋。
從性能指標上看,系統(tǒng)的吞吐量得到了顯著提高,在相同的時間內(nèi)能夠處理更多的用戶請求。系統(tǒng)延遲也明顯降低,平均響應(yīng)時間從原來的數(shù)秒縮短到了 1 秒以內(nèi)。CPU 的使用率在高并發(fā)情況下也能夠保持在合理范圍內(nèi),不再出現(xiàn)長時間滿載的情況。磁盤 I/O 的性能得到了極大改善,磁盤的繁忙程度(% util)始終保持在較低水平。網(wǎng)絡(luò)帶寬的使用更加合理,各業(yè)務(wù)之間的網(wǎng)絡(luò)請求能夠得到有效的保障。
通過這次 Linux 內(nèi)核性能調(diào)優(yōu),該在線教育平臺成功應(yīng)對了業(yè)務(wù)量增長帶來的挑戰(zhàn),為用戶提供了更加優(yōu)質(zhì)的服務(wù),同時也為平臺的持續(xù)發(fā)展奠定了堅實的基礎(chǔ)。