有些線程跑著跑著就不見(jiàn)了
本文轉(zhuǎn)載自微信公眾號(hào)「小黑十一點(diǎn)半」,作者樓下小黑哥。轉(zhuǎn)載本文請(qǐng)聯(lián)系小黑十一點(diǎn)半公眾號(hào)。
前言
Hello,大家好,我是樓下小黑哥~
最近接了一個(gè)業(yè)務(wù)需求,需求倒是不難,三下五除二就整理出設(shè)計(jì)方案,然后就開(kāi)始代碼改造。
啪,很快,就完成代碼改造,然后提測(cè)給測(cè)試小姐姐。
小姐姐前面測(cè)試好好的,測(cè)到這個(gè)工程的時(shí)候,突然跟我反饋,你看這個(gè)這個(gè)工程跑著跑著就不動(dòng)了,日志什么也沒(méi)了。
那時(shí)候正在忙,想著我就沒(méi)改幾行代碼,也沒(méi)涉及核心邏輯,那肯定沒(méi)問(wèn)題的。
于是回復(fù)小姐姐,業(yè)務(wù)邏輯執(zhí)行的太慢了吧,再等個(gè)半小時(shí)再看看?
一小時(shí)后,小姐姐又來(lái)找我,我都等了一小時(shí),這個(gè)工程還是沒(méi)動(dòng)啊,日志還是沒(méi)有啊。
這下不能拖了,上去仔細(xì)一看,還真是,怎么就沒(méi)了呢?
先簡(jiǎn)單說(shuō)下這段代碼,就是使用一個(gè)異步線程執(zhí)行一段業(yè)務(wù)邏輯,示例代碼如下:
- // 前置邏輯
- .....
- Thread thread=new Thread(new Runnable() {
- @Override
- public void run() {
- try {
- // 異步線程執(zhí)行其他業(yè)務(wù)邏輯
- } catch (Exception e) {
- // 不進(jìn)行任何代碼處理
- }
- }
- });
- thread.start();
憑著老程序員的經(jīng)驗(yàn),猜到可能是異步線程內(nèi)發(fā)生了異常,導(dǎo)致異步線程退出,不再繼續(xù)執(zhí)行。而又因?yàn)樯鲜龃a「吃掉」了異常,這就導(dǎo)致我們從外部看起來(lái)這個(gè)工程跑著跑著就不動(dòng)了,日志什么也沒(méi)了。
于是改造了一下,打印出相關(guān)異常日志,最終定位問(wèn)題,原來(lái)是小姐姐造的數(shù)據(jù)存在問(wèn)題,從而引發(fā) NPE 問(wèn)題。
「不知道大家有沒(méi)有碰到過(guò)上面的情況,使用線程異步執(zhí)行相關(guān)邏輯,但是執(zhí)行到一半突然就像卡主一般,不再繼續(xù)往下執(zhí)行。」
小黑哥碰到過(guò)幾次,這幾次原因都不太相同,總結(jié)起來(lái)分為下面三種情況:
- 異步任務(wù)長(zhǎng)時(shí)間被阻塞
- 異步任務(wù)發(fā)生異常
- 異步任務(wù)異常被吃掉
異步任務(wù)長(zhǎng)時(shí)間被阻塞
第一種,異步線程執(zhí)行任務(wù),這個(gè)任務(wù)需要通過(guò)網(wǎng)絡(luò)調(diào)用其他遠(yuǎn)端服務(wù)。假設(shè)服務(wù)端響應(yīng)的非常慢,而我們?cè)O(shè)置的網(wǎng)絡(luò)超時(shí)時(shí)間又很長(zhǎng),這就會(huì)導(dǎo)致這個(gè)線程長(zhǎng)時(shí)間被阻塞。
假設(shè)異步任務(wù)偽碼如下:
- ThreadPoolExecutor threadPool= ....;
- threadPool.execute(() -> {
- // 1.調(diào)用遠(yuǎn)端服務(wù)
- Socket socket....;
- // 2.設(shè)置超時(shí)時(shí)間
- socket.setSoTimeout(60*1000);
- // 3.讀取服務(wù)端返回
- socket.read();
- });
上面程序中,如果服務(wù)端一直沒(méi)有返回,那么異步線程將會(huì)一直被阻塞,直到超時(shí)。
這種情況其實(shí)還好,我們無(wú)非等待一段時(shí)間,就可以看到異步線程繼續(xù)往下執(zhí)行任務(wù)。
舉一個(gè)極端的例子,假設(shè)上面的代碼沒(méi)有設(shè)置超時(shí)時(shí)間,而服務(wù)端一直沒(méi)有返回響應(yīng),「此時(shí)異步線程就會(huì)被一直阻塞」。
除了上面網(wǎng)絡(luò)讀取阻塞的例子,常見(jiàn)情況還有
- 執(zhí)行了長(zhǎng)時(shí)間休眠,比如 TimeUnit.MINUTES.sleep(60)
- 內(nèi)部發(fā)生了死鎖
- 等等
如果異步線程長(zhǎng)時(shí)間被阻塞,而異步任務(wù)執(zhí)行又比較頻繁,那么線程池內(nèi)可用線程將會(huì)被慢慢耗盡,此時(shí)后續(xù)任務(wù)就會(huì)被拒絕執(zhí)行。
解決辦法
其實(shí)非常簡(jiǎn)單,首先我們使用 jstack 命令 「dump」 一下當(dāng)前 Java 應(yīng)用的線程堆棧情況,然后根據(jù)線程池名字定位相關(guān)線程即可。
網(wǎng)上隨便找了堆棧圖
如果沒(méi)有自定義線程池 ThreadFactory 參數(shù),那查找定位被阻塞線程就比較麻煩了。
所以創(chuàng)建線程池建議自定義 ThreadFactory 參數(shù),這對(duì)于后期排查問(wèn)題非常有用。
異步任務(wù)異常未捕獲
上面的情況,異步線程其實(shí)還活著,只是被阻塞沒(méi)辦法執(zhí)行后續(xù)的邏輯。
那這一類情況呢,與上面不太一樣,由于異步任務(wù)內(nèi)部發(fā)生錯(cuò)誤,拋出異常,而代碼邏輯中又沒(méi)有進(jìn)行捕獲處理,從而導(dǎo)致線程提前異常退出。
異常退出偽碼如下:
- // 1.創(chuàng)建執(zhí)行的任務(wù)
- Runnable runnable=new Runnable() {
- @Override
- public void run() {
- // 執(zhí)行前置邏輯
- // 拋出異常
- int i=100/0;
- // 執(zhí)行后置邏輯
- }
- };
- // 2.創(chuàng)建線程
- Thread thread=new Thread(runnable);
- // 3.運(yùn)行異步線程
- thread.start();
- // 其他業(yè)務(wù)邏輯
上述代碼中,異步線程執(zhí)行到除零邏輯,將會(huì)拋出異常,然后異步線程將會(huì)異常退出。
「異步線程內(nèi)拋出的異常日志僅僅只會(huì)被打印到控制臺(tái),而不會(huì)被記錄到日志文件中。」
所以正常的業(yè)務(wù)日志中是見(jiàn)不到線程異常的日志,這就給了我們一種假象,異步線程看起來(lái)還在執(zhí)行任務(wù),其實(shí)它已經(jīng)掛了。
PS:上面的話可能不好理解,舉個(gè)例子,如果你使用 IDEA 執(zhí)行上面這段程序,異常日志將會(huì)被輸出到 IDEA 下方控制臺(tái)。
而如果我們?cè)?Linux 機(jī)器上執(zhí)行這段程序,異常日志僅僅只會(huì)顯示在當(dāng)前終端窗口上,一旦關(guān)閉當(dāng)前終端窗口,日志就沒(méi)。了。
如果想要保存這種日志,我們需要將 stdout 重定向到日志文件中,比如執(zhí)行以下命令:
- -- 將 stdout 重定向輸出到文件中
- nohup java xxxx > $STDOUT_FILE 2>&1 &
解決辦法
第一種解決辦法,其實(shí)很多讀者已經(jīng)想到了,異步線程內(nèi)使用 try..catch 語(yǔ)句捕獲所有異常即可。
「沒(méi)錯(cuò),就是這么簡(jiǎn)單。」
不過(guò)這里提一點(diǎn),一般我們使用 try..catch僅僅只會(huì)捕獲 Exception異常。
那么極端情況下,異步線程內(nèi)如果拋出 Error,比如拋出了 java.lang.NoClassDefFoundError,此時(shí)是沒(méi)法捕獲,異步線程依舊會(huì)異常退出。
所以我們可以使用try..catch捕獲 Throwable,這樣及時(shí)發(fā)生 Error錯(cuò)誤,也會(huì)被捕獲。
不過(guò)個(gè)人覺(jué)得捕獲Exception異常就夠了,正常工程應(yīng)用很少會(huì)發(fā)生 Error錯(cuò)誤,所以我們只要了解有這個(gè)可能即可。
ps:之前同事上線一個(gè)應(yīng)用,使用異步線程執(zhí)行任務(wù),每次執(zhí)行到一半,都不再繼續(xù)執(zhí)行。
由于異步線程內(nèi)使用try..catch捕獲處理了 Exception異常,所以找了半天不知道什么問(wèn)題。
最后,小黑哥排查 stdout 輸出日志,才發(fā)現(xiàn)異步線程發(fā)生 Error錯(cuò)誤。
這種解決本法需要我們主動(dòng)去捕獲異常,而下面第二種解決辦法,設(shè)置線程異常處理方法。
一旦設(shè)置完成,如果異步線程內(nèi)發(fā)生異常,線程退出之前將會(huì)調(diào)用異常處理方法。
我們拿 Thread 來(lái)講,其設(shè)置方法如下:
- Runnable runnable=new Runnable() {
- @Override
- public void run() {
- int i=100/0;
- }
- };
- Thread thread=new Thread(runnable);
- thread.setUncaughtExceptionHandler(new Thread.UncaughtExceptionHandler() {
- @Override
- public void uncaughtException(Thread t, Throwable e) {
- System.out.println(t.getName()+"發(fā)生異常"+e.getMessage());
- }
- });
- thread.start();
不過(guò)生產(chǎn)環(huán)境不建議直接使用 Thread,我們需要使用線程池代替。
線程池設(shè)置異常處理方法可以分為兩種,如果我們使用 ThreadPoolExecutor#execute執(zhí)行異步任務(wù),那我們需要在自定義線程池的時(shí)候,使用 ThreadFactory 設(shè)置。
- ThreadPoolExecutor threadPool =new ThreadPoolExecutor(
- 5,
- 10,
- 60,
- TimeUnit.SECONDS,new ArrayBlockingQueue<>(100),
- // 這里使用 Guava 的 ThreadFactoryBuilder 類,方便構(gòu)造 ThreadFactory
- new ThreadFactoryBuilder().setUncaughtExceptionHandler(new Thread.UncaughtExceptionHandler() {
- @Override
- public void uncaughtException(Thread t, Throwable e) {
- // 處理異常
- }
- }).build()
- );
如果你當(dāng)前使用 ThreadPoolExecutor#submit執(zhí)行異步任務(wù),那就簡(jiǎn)單了,我們可以直接通過(guò) Future#get獲取到線程內(nèi)拋出的異常。
- Future<?> future = threadPool.submit(new Callable<Object>() {
- @Override
- public Object call() throws Exception {
- return "小黑十一點(diǎn)半";
- }
- });
- try {
- future.get();
- } catch (InterruptedException e) {
- e.printStackTrace();
- } catch (ExecutionException e) {
- // 線程內(nèi)拋出異常將會(huì)被封裝在 ExecutionException 內(nèi)
- }
異步任務(wù)異常被吃掉
好了,終于到最后一種情況了,小黑哥這次碰到就是這種??。
這種情況具體來(lái)說(shuō)就是異步線程內(nèi)使用 try..catch 語(yǔ)句捕獲了所有異常,但是沒(méi)有在 catch語(yǔ)句中進(jìn)行任何代碼處理。
- Thread thread=new Thread(new Runnable() {
- @Override
- public void run() {
- try {
- int i=100/0;
- } catch (Exception e) {
- // 不進(jìn)行任何代碼處理
- }
- }
- });
- thread.start();
如上述代碼所示,catch語(yǔ)句中沒(méi)有進(jìn)行任何代碼處理。即使異步線程內(nèi)真發(fā)生了異常,也不會(huì)有任何提示,這個(gè)異常就像被吃掉一般。
總結(jié)
多線程編程原本就比較復(fù)雜,我們需要處理各種問(wèn)題,那今天主要介紹了一下其中的一個(gè)問(wèn)題:
「異步線程突然停止,就像卡主一般,不再繼續(xù)執(zhí)行代碼邏輯,沒(méi)有任何響應(yīng)」
那這類問(wèn)題,小黑哥根據(jù)自己碰到情況,總結(jié)為三類:
- 異步任務(wù)長(zhǎng)時(shí)間被阻塞
- 異步任務(wù)異常
- 異步任務(wù)異常被吃掉。
對(duì)于第一種,我們?cè)诰W(wǎng)絡(luò)編程中及時(shí)設(shè)置超時(shí)時(shí)間,一般都能避免。
對(duì)于第二、第三種情況,這就需要我們建立一個(gè)良好的編程習(xí)慣,使用try..catch 捕獲所有異常,并且 catch塊中一定做一些處理,比如說(shuō)打印相關(guān)日志。