圖解 | 打工人看騰訊這道多線程面試題
本文轉載自微信公眾號「后端技術指南針」,作者指南針氪金入口 。轉載本文請聯系后端技術指南針公眾號。
1. 騷動的周五
小黑是大白前同事,現在倆人在不同的公司,但是都做后端開發工作。
雖然兩個人都在北京,但是距離不算近,一個在望京,一個在中關村,算是北京幾大IT聚集圈之二了。
兩個人日常除了工作,業余活動并不多,當然頭發也不多,宇宙中心五道口成了二人的集結地。
眨了5次眼,又到周五了,仿佛空氣都彌漫著明天放假的歡快氣息,當然還有騷動的大白和小黑:
大白看著時間差不多了,檢查完上線監控報警,沒啥問題,背上電腦走出了寫字樓。
中關村到五道口還是比較近的,掃上低碳環保的青桔單車,一路向北到北大東門轉彎來到了五道口地區。
小黑也坐上13號線,人貼人差點擠成肉餅,美食召喚下他還是在8點準時到了老地方。
大白:黑哥,你啥時候面的騰訊?掛了?你咋不找我內推我們公司呀!
小黑:還沒掛,等GM面呢,你們公司手撕紅黑樹,整不了啊。
大白:就你這樣,這么喜歡穿紅衛衣和黑褲子,不問你紅黑樹才怪。話說騰訊都問啥了?
小黑:騰訊的面試整體感覺還是不錯的,面試很寬泛,從操作系統、網絡到系統設計、常用組件都會問,并且不偏不怪。
大白:那確實不錯,是本著去挖掘和探測候選人技術邊界,有啥奈斯的問題嗎?講講啊
小黑:有個問題算是我的盲區了,給了幾個Linux系統函數,讓我看哪些是線程安全的,哪些是可重入的,并解釋下為啥。
大白:哦哦,這是考察對線程安全函數和可重入函數的理解。那你咋回答的?
小黑:臥槽,我說我不太會呀,然后就jump下一題了。要不你給我講講?我先干一個!
小黑說完,噸噸噸,一大杯啤酒下肚了,大白見狀扶了扶好幾年沒換的眼鏡,開始和小黑討論什么是線程安全和可重入。
2. 多線程和并發
在使用C++開發的服務端程序中多線程還是主流,一般來說會有個線程池來處理接收的請求,這樣可以有效提供服務器的并發能力和CPU的利用率。
但是,多線程也是一把雙刃劍。
單線程模式下,一切都是那么單調而穩定,所有的資源都是自己的,我的資源我做主。
多線程模式下,一個進程下裝載了多個線程,每個線程除了部分資源是獨享外,多個線程對大部分系統資源是共享的。
多個線程共享的進程資源:
- 內存
- 文件描述符
- 地址空間
- 全局數據
- ...
每個線程獨享的資源:
- 線程寄存器
- 線程棧
- 線程ID、錯誤返回碼、信號屏蔽碼
- ...
敲黑板劃重點:
1.進程是系統進行資源分配和調度的基本單位,線程是CPU調度和分派的基本單位;
2.進程是線程的載體,進程有獨立地址空間,所有線程共享所在進程的地址空間;
3.進程是系統資源的大股東,而線程基本上不擁有系統資源,只占用少量在運行中必不可少的資源,比如程序計數器、一組寄存器和調用棧;
同一個進程中的多個線程有點像合租,大家共用大部分資源,自己獨占一小部分資源,相互影響,然而但單進程單線程就是整租,自己獨占所有資源,誰也不影響。
掌握多線程中資源共享和相互影響的特點之后,再來看看線程安全和可重入就容易很多。
3. 什么是線程安全
計算機中所謂的安全大多是指結果的正確且可預測性。
前面我們知道,多線程運行起來雖然可以提高并發能力,但是多個線程會共享很多資源,比如寫全局數據,這種情況下就需要額外干預,否則將引發錯亂的結果。
線程安全是在擁有共享數據的多條線程并行執行的進程中,可以正常且正確的執行,不會出現數據污染等意外情況,反之則稱為線程不安全。
通俗一點講,線程安全就怎么跑都不亂,線程不安全就是一跑就可能五花八門。
所以可能產生線程不安全根本原因在于:共享數據且共享數據可變。
這些共享數據包括全局變量、局部靜態變量等,每個線程都可能對這個數據進行操作,并且操作結果會影響其他線程。
我們還經常提到另外一個術語:線程安全函數/線程安全類。
線程安全函數的一些特征:
- 無任何共享的數據,都是局部數據;
- 存在寫共享數據,但是進行了加鎖處理,可以實現多線程的同步調用;
- 存在讀但無寫共享數據,無需加鎖;
從圖中可以看到:
- 同一進程內有四個工作線程;
- 公共函數A 只執行打印操作,無論何時何線程調用,結果都是確定且正確的,因此是線程安全函數;
- 公共函數B 使用了全局變量Count,并對其進行遞增1操作,但是沒有進行加鎖同步處理,因此結果是不確定的,為線程不安全函數;
- 公共函數C 使用了全局變量Factor,并對其進行遞增2操作,使用了互斥鎖進行同步確保結果的正確,是線程安全函數;
在編寫多線程程序時,如果涉及多個線程操作一個公共函數,如果該函數本身不是線程安全的。
例如當一個函數F是線程安全函數,但是F調用線程不安全函數G時,同樣需要對G進行加鎖處理,否則函數F也將不安全。
在《深入理解計算機系統》一書中深入指出了線程不安全函數的分類:
- 不保護共享產量的函數
- 保持跨越多個調用狀態的函數
- 返回指向靜態變量的指針的函數
- 調用線程不安全函數的函數
前面介紹的幾個例子大部分都是全局變量的不加鎖控制相關的,還有兩種就是:
- 函數本次調用依賴于上次調用結果,也就是所謂的跨狀態,典型的Linux中的rand()函數;
- 函數將結果放在一個全局的指針中,典型的gethostbyname、localtime、strtok等;
- // 函數原型
- struct tm * localtime(const time_t *clock);
- /* localtime example */
- #include <stdio.h>
- #include <time.h>
- int main ()
- {
- time_t rawtime;
- struct tm * timeinfo;
- time (&rawtime);
- timeinfo = localtime (&rawtime);
- return 0;
- }
在localtime中將結果存放在timeinfo中,這個全局變量可以被任意的線程操作,因此將引發線程不安全。
對于Linux中線程不安全的函數可以查閱:
- https://man7.org/linux/man-pages/man7/pthreads.7.html
4. 可重入函數
在理解了線程安全的相關定義和形成原因之后,我們來看下什么是可重入。
先來看看可重入的相關定義:
一個程序可以在任意時刻被中斷,然后系統去執行另外一段代碼,結束后又調用繼續原來的子程序不會出錯,則稱其為可重入(reentrant或re-entrant)。
從根本上來說:
- 可重入函數只使用自己棧上的變量,不依賴任何外部數據,可以允許有該函數的多個副本在運行,因為每個調用者產生的函數棧都是相互獨立的;
- 不可重入函數使用了一些系統資源,如果被中斷的話,可能會出現問題;
可重入函數又分為兩大類:
- 顯式可重入:所有函數的參數都是值傳遞,并且只使用本地棧變量,那么函數就是顯示可重入的,無論如何調用,都是可重入的,是絕對無條件的。
- 隱式可重入:可重入函數中的一些參數是引用傳遞,只有在調用線程的時候傳遞指向非共享數據的指針時,它才是可重入的,是相對有條件的。
可重入函數需要滿足以下幾個條件:
- 函數內部不使用靜態或者全局數據
- 函數不返回靜態或全局數據,數據的產生都由調用者提供
- 不調用不可重入函數
從本質上來說,可重入函數實現了算法和數據的分離,函數內部的計算不依賴于外部,不影響也不受外部影響,是一種高效且安全的函數。
可重入函數都是線程安全函數,線程安全不一定是可重入函數。
不可重入函數可以遵守可重入規則去改造,從而變為可重入函數。
5. 小結
本文從多線程并發編程的一些特征進行闡述,引出了多線程下資源的共享本質。
正因為臨界資源和競態條件的存在,就產生了線程安全問題,在編寫多線程程序時一定要考慮線程不安全帶來的問題。
在理解線程安全的概念之后進一步引出了可重入函數。
從本質上來說,都是并發環境下由于共享資源帶來的問題。
就這樣,小黑聽完之后雖然一知半解,但也頻頻點頭,一看表快10點了,兩個打工人結完賬,消失在了去13號線五道口站的夜色中。