基于線程池的線上服務(wù)性能優(yōu)化

作者：我是雨樂 2022-05-31 10:51:12

需求，總是自我技術(shù)提升，架構(gòu)升級(jí)優(yōu)化的動(dòng)力源。

最近居家辦公。正在發(fā)愁摸哪條魚的時(shí)候，產(chǎn)品突然在群里at了我一下，說到某某訂單曝光異常，讓配合看看。

仔細(xì)詢問了下訂單信息，乖乖，原來用的是6年前開發(fā)的一個(gè)功能，要知道這個(gè)功能自上線后基本很少用，不知道為什么現(xiàn)在開始用起來了，只能先放棄摸魚，先配合解決問題，畢竟要靠這個(gè)來吃飯的。

需求背景

在廣告中，經(jīng)常有這樣一種需求場(chǎng)景，需要將某個(gè)廣告定向投放給某一批指定用戶。即假設(shè)有一個(gè)adid，指定了投放用戶1和用戶2，那么只有在用戶1和用戶2的流量請(qǐng)求過來的時(shí)候，才會(huì)返回給adid，而其他用戶的流量，均不會(huì)返回該adid。

一般情況下，指定用戶多達(dá)幾百萬個(gè)甚至上千萬個(gè)，將這些用戶ID直接隨著廣告訂單推送過來，顯然不切實(shí)際，所以當(dāng)時(shí)的設(shè)計(jì)方案是廣告主將包含有指定用戶ID的數(shù)據(jù)包上傳到廣告后臺(tái)，然后生成一個(gè)url，而該url則隨著廣告訂單推送過來。在引擎中，有個(gè)服務(wù)專門訂閱了廣告訂單消息，如果發(fā)現(xiàn)該廣告訂單是指定用戶投放，則將url指向的數(shù)據(jù)包中的數(shù)據(jù)獲取后，進(jìn)行實(shí)時(shí)加載，這樣當(dāng)其用戶ID流量過來的時(shí)候，就能匹配上該廣告。

初始設(shè)計(jì)

在開始本節(jié)之前，我們不妨先思考幾分鐘，如果讓你來實(shí)現(xiàn)這個(gè)功能，該如何實(shí)現(xiàn)呢？

好了，讓我們把時(shí)間調(diào)回到2016年年底，產(chǎn)品提出該需求的時(shí)間點(diǎn)。

當(dāng)時(shí)看了該需求，還是蠻簡(jiǎn)單的。為了便于內(nèi)容理解，將加載定向包的服務(wù)稱之為Retargeting。

Retargeting服務(wù)就兩個(gè)基本功能：

訂閱廣告訂單消息隊(duì)列
如果獲取到了有定向包的廣告訂單，則下載該定向包，然后獲取里面的數(shù)據(jù)，建立倒排索引

是不是很簡(jiǎn)單，代碼也非常好寫，下載定向包可以使用libcurl，也可以使用wget進(jìn)行下載然后讀取文件加載到內(nèi)存，當(dāng)時(shí)因?yàn)榕牌诒容^緊張，所以選擇了wget方式來實(shí)現(xiàn)，因?yàn)閿?shù)據(jù)量比較大，所以使用redis作為倒排索引的存儲(chǔ)媒介。

假設(shè)有一個(gè)廣告訂單我們稱之為ad，其包含一個(gè)定向包地址url，此時(shí)會(huì)做如下幾件事：

1、使用如下命令進(jìn)行下載url所指向的定向包

auto cmd = "wget -t 3 -c -r -nd -P /data1/data/ –delete-after -np -A .txt http://url.txt";
auto fp = popen(cmd.str().c_str(), "r");
if (!fp) {
  return;
}

2、以文件形式打開該包

// 獲取本地包地址，如/data1/data/url.txt
fp = fopen(path.c_str(), "r");
std::string id;
char buf[128] = {'\0'};
while (fgets(buf, 128, fp)) {
  id = buf;
  boost::replace_all(id, " ", "");
  boost::replace_all(id, "\r", "");
  boost::replace_all(id, "\n", "");
  noost::replace_all(id, "\^M", "");
  if (!id.empty()) {
    ids.emplace_back(id);
  }
}

3、Redis中建立倒排索引

for (auto item : ids) {
  redis_client_->SAdd(item, adid);
}

好了，到了此處，Retargeting服務(wù)功能已經(jīng)基本都實(shí)現(xiàn)了。

在召回引擎中，當(dāng)流量來了之后，會(huì)先以用戶ID為key，從redis中獲取指定投放該設(shè)備ID的adid，然后返回。

代碼編譯完后，在測(cè)試環(huán)境下了個(gè)單，推送，然后模擬請(qǐng)求，召回，完美。

問題初現(xiàn)

定向包功能，尤其是對(duì)于KA廣告主，是不屑使用的，畢竟他們財(cái)大氣粗，要的就是 ??腦白金?? 似的推廣效果，即 「只關(guān)注展示量，而不在乎是否有效果」 。奈何隨著國家政策的一步步調(diào)整，廣告行業(yè)都開始勒緊褲腰帶過日子，之前的大廣告主也開始關(guān)注投放效果了，畢竟 ??品效合一?? 嘛。于是，他們開始挖掘了一批用戶，在后臺(tái)開始投放，嘗試投放效果。隨著此類定向包訂單越來越多，之前實(shí)現(xiàn)的Retargeting也開始出現(xiàn)瓶頸了。。。

畢竟該功能使用不多，所以大部分情況下，產(chǎn)品或者運(yùn)營提出問題的時(shí)候，都會(huì)找個(gè)借口搪塞回去。直到某一天，產(chǎn)品直接甩出來一張圖，說某個(gè)部門老大非常看重的一個(gè)廣告主的定向包投放曝光為0，并揚(yáng)言當(dāng)天解決不了，就通過其它渠道進(jìn)行投放。。。

既然是部門老大都找過來了，那就不得不找下原因了，于是從訂單的url是否有效開始查起，定向包設(shè)備的有效覆蓋率，一直到整個(gè)訂單的推送時(shí)間，一切都正常，看來問題出在ReTargeting服務(wù)了，服務(wù)正常，加載也正常，無意間看了下消費(fèi)進(jìn)度，不看不知道，一看嚇一跳。才剛剛消費(fèi)到昨天的訂單，也就是說當(dāng)天要投放的訂單還沒開始加載，怪不得還沒有曝光，就這進(jìn)度，有曝光才怪。

順便看了眼服務(wù)狀態(tài)，乖乖，CPU占用這么低。。。

嘗試優(yōu)化

既然CPU占用這么低，那么有沒有可能從CPU占用這個(gè)角度進(jìn)行優(yōu)化呢，提升CPU占用，提高服務(wù)處理能力，這樣就能加快其加載速度了。對(duì)于這種，一般稍微有點(diǎn)經(jīng)驗(yàn)的，就會(huì)知道該怎么優(yōu)化，對(duì)，就是使用 ??多線程?? 。

既然決定使用多線程，那么就得徹底點(diǎn)，多線程處理訂單，在每個(gè)訂單中，又采用多線程進(jìn)行數(shù)據(jù)加載和處理，我們暫且稱之為 ??M*N?? 多線程設(shè)計(jì)模型，如下：

在上圖中，采用多線程方式對(duì)Retargeting服務(wù)進(jìn)行優(yōu)化，假設(shè)此時(shí)有m個(gè)定向包訂單，則會(huì)同時(shí)有m個(gè)線程進(jìn)行處理，每個(gè)線程處理一個(gè)定向包訂單，看起來很完美，等等，會(huì)不會(huì)有其他問題呢？要不然一開始為什么就不這么設(shè)計(jì)呢？

大家知道，對(duì)于多線程程序， 「線程的執(zhí)行順序，完成時(shí)間是不可控的」 ，使用上述設(shè)計(jì)方案，如果多個(gè)線程 「同時(shí)處理多個(gè)不同的訂單，那么是沒有任何問題的」 ，但是，如果對(duì)于另外一種場(chǎng)景，該方案就不可行了，如下：

假設(shè)此時(shí)銷售創(chuàng)建了一個(gè)定向包訂單ad0，先推送上線。然后發(fā)現(xiàn)訂單有問題，所以隨即推送下線。那么此時(shí)消息隊(duì)列中有兩條消息，先是ad0的上線消息，然后是ad0的下線消息。基于上述多線程設(shè)計(jì)模型，假設(shè) 線程1執(zhí)行訂單上線，線程2執(zhí)行訂單下線，可能的結(jié)果就有如下幾種：

先執(zhí)行上線訂單加載，再執(zhí)行下線訂單加載，此種情況符合預(yù)期
下線訂單先完成，然后上線訂單完成，此種情況最終與我們期望的相反
上線訂單和下線訂單同時(shí)執(zhí)行，且中間交叉進(jìn)行，結(jié)果不可控

很明顯，該種方案不可行，盡管其最大可能地優(yōu)化了性能，但是得不到正確的結(jié)果，即使性能再好，又有啥用呢？

難道多線程設(shè)計(jì)模型真的不適用于我們這個(gè)服務(wù)嗎？

不妨調(diào)整下思路，在上述的方案分析中，多個(gè)線程同時(shí)處理多個(gè)訂單就會(huì)有問題，換句話說在M*N多線程設(shè)計(jì)模型中，正是因?yàn)镸>1導(dǎo)致了結(jié)果不可預(yù)期，那么如果M=1呢？這樣會(huì)不會(huì)就會(huì)避免上述問題呢？

我們?nèi)匀灰陨鲜霭咐M(jìn)行舉例，因?yàn)槭菃尉€程處理消息隊(duì)列，那么永遠(yuǎn)都是先處理上線消息，然后再處理下線消息，這樣的結(jié)果永遠(yuǎn)符合我們的預(yù)期。

既然方案已經(jīng)定了，那么就可以直接寫代碼了。在該方案中，我們用到了多線程進(jìn)行處理，如果每次來了訂單消息都創(chuàng)建多個(gè)線程進(jìn)行處理，處理完成后，銷毀線程。雖然也可以這么做，但多少對(duì)性能有所影響，所以干脆使用 ??線程池?? 來完成吧。base庫中有之前手?jǐn)]的線程池，直接拿來使用。

for (auto did : ids) {
  thread_pool.enqueue([did, adid, this]{
      RedisClient client;
      redis_client_pool_.Pop(&client);
      if (client) {
        client->SAdd(did,  adid);
        redis_client_pool_.Push(client);
      }
  });
  }
}