成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從Linux源碼看Socket(TCP)的Listen及連接隊列

系統 Linux
從Linux源碼看Socket(TCP)的listen及連接隊列前言筆者一直覺得如果能知道從應用到框架再到操作系統的每一處代碼,是一件Exciting的事情。

[[346270]]

從Linux源碼看Socket(TCP)的listen及連接隊列前言筆者一直覺得如果能知道從應用到框架再到操作系統的每一處代碼,是一件Exciting的事情。今天筆者就來從Linux源碼的角度看下Server端的Socket在進行listen的時候到底做了哪些事情(基于Linux 3.10內核),當然由于listen的backlog參數和半連接hash表以及全連接隊列都相關,在這一篇博客里也一塊講了。

Server端Socket需要Listen

眾所周知,一個Server端Socket的建立,需要socket、bind、listen、accept四個步驟。今天筆者就聚焦于Listen這個步驟。

代碼如下:

  1. void start_server(){ 
  2.     // server fd 
  3.     int sockfd_server; 
  4.     // accept fd  
  5.     int sockfd; 
  6.     int call_err; 
  7.     struct sockaddr_in sock_addr; 
  8.   ...... 
  9.     call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr)); 
  10.     if(call_err == -1){ 
  11.         fprintf(stdout,"bind error!\n"); 
  12.         exit(1); 
  13.     } 
  14.     // 這邊就是我們今天的聚焦點listen 
  15.     call_err=listen(sockfd_server,MAX_BACK_LOG); 
  16.     if(call_err == -1){ 
  17.         fprintf(stdout,"listen error!\n"); 
  18.         exit(1); 
  19.     } 

首先我們通過socket系統調用創建了一個socket,其中指定了SOCK_STREAM,而且最后一個參數為0,也就是建立了一個通常所有的TCP Socket。在這里,我們直接給出TCP Socket所對應的ops也就是操作函數。

如果你想知道上圖中的結構是怎么來的,可以看下筆者以前的博客:

https://my.oschina.net/alchemystar/blog/1791017

Listen系統調用好了,現在我們直接進入Listen系統調用吧。

  1. #include <sys/socket.h> 
  2. // 成功返回0,錯誤返回-1,同時錯誤碼設置在errno 
  3. int listen(int sockfd, int backlog); 

注意,這邊的listen調用是被glibc的INLINE_SYSCALL裝過一層,其將返回值修正為只有0和-1這兩個選擇,同時將錯誤碼的絕對值設置在errno內。這里面的backlog是個非常重要的參數,如果設置不好,是個很隱蔽的坑。

對于java開發者而言,基本用的現成的框架,而java本身默認的backlog設置大小只有50。這就會引起一些微妙的現象,這個在本文中會進行講解。

 

接下來,我們就進入Linux內核源碼棧吧

  1. listen 
  2.  |->INLINE_SYSCALL(listen......) 
  3.   |->SYSCALL_DEFINE2(listen, int, fd, int, backlog) 
  4.    /* 檢測對應的描述符fd是否存在,不存在,返回-BADF 
  5.    |->sockfd_lookup_light 
  6.    /* 限定傳過來的backlog最大值不超出 /proc/sys/net/core/somaxconn 
  7.    |->if ((unsigned int)backlog > somaxconn) backlog = somaxconn 
  8.    |->sock->ops->listen(sock, backlog) <=> inet_listen 

值得注意的是,Kernel對于我們傳進來的backlog值做了一次調整,讓其無法>內核參數設置中的somaxconn。

inet_listen

接下來就是核心調用程序inet_listen了。

  1. int inet_listen(struct socket *sock, int backlog) 
  2.  
  3.  /* Really, if the socket is already in listen state 
  4.   * we can only allow the backlog to be adjusted. 
  5.   *if ((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 && 
  6.       inet_csk(sk)->icsk_accept_queue.fastopenq == NULL) { 
  7.       // fastopen的邏輯 
  8.    if ((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0) 
  9.     err = fastopen_init_queue(sk, backlog); 
  10.    else if ((sysctl_tcp_fastopen & 
  11.       TFO_SERVER_WO_SOCKOPT2) != 0) 
  12.     err = fastopen_init_queue(sk, 
  13.         ((uint)sysctl_tcp_fastopen) >> 16); 
  14.    else 
  15.     err = 0; 
  16.    if (err) 
  17.     goto out
  18.   } 
  19.  if(old_state != TCP_LISTEN) { 
  20.   
  21.   err = inet_csk_listen_start(sk, backlog); 
  22.  } 
  23.  sk->sk_max_ack_backlog =backlog; 
  24.  ...... 

從這段代碼中,第一個有意思的地方就是,listen這個系統調用可以重復調用!第二次調用的時候僅僅只能修改其backlog隊列長度(雖然感覺沒啥必要)。

 

首先,我們看下除fastopen之外的邏輯(fastopen以后開單章詳細討論)。也就是最后的inet_csk_listen_start調用。

  1. int inet_csk_listen_start(struct sock *sk, const int nr_table_entries) 
  2.  ...... 
  3.  // 這里的nr_table_entries即為調整過后的backlog 
  4.  // 但是在此函數內部會進一步將nr_table_entries = min(backlog,sysctl_max_syn_backlog)這個邏輯 
  5.  int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries); 
  6.  ...... 
  7.  inet_csk_delack_init(sk); 
  8.  // 設置socket為listen狀態 
  9.  sk->sk_state = TCP_LISTEN; 
  10.  // 檢查端口號 
  11.  if (!sk->sk_prot->get_port(sk, inet->inet_num)){ 
  12.   // 清除掉dst cache 
  13.   sk_dst_reset(sk); 
  14.   // 將當前sock鏈入listening_hash 
  15.   // 這樣,當SYN到來的時候就能通過__inet_lookup_listen函數找到這個listen中的sock 
  16.   sk->sk_prot->hash(sk); 
  17.  } 
  18.  sk->sk_state = TCP_CLOSE; 
  19.  __reqsk_queue_destroy(&icsk->icsk_accept_queue); 
  20.  // 端口已經被占用,返回錯誤碼-EADDRINUSE 
  21.  return -EADDRINUSE; 

這里最重要的一個調用sk->sk_prot->hash(sk),也就是inet_hash,其將當前sock鏈入全局的listen hash表,這樣就可以在SYN包到來的時候尋找到對應的listen sock了。如下圖所示:

 

如圖中所示,如果開啟了SO_REUSEPORT的話,可以讓不同的Socket listen(監聽)同一個端口,這樣就能在內核進行創建連接的負載均衡。在Nginx 1.9.1版本開啟了之后,其壓測性能達到3倍!

 

半連接隊列hash表和全連接隊列

在筆者一開始翻閱的資料里面,都提到。tcp的連接隊列有兩個,一個是sync_queue,另一個accept_queue。但筆者仔細閱讀了一下源碼,其實并非如此。事實上,sync_queue其實是個hash表(syn_table)。另一個隊列是icsk_accept_queue。

所以在本篇文章里面,將其稱為reqsk_queue(request_socket_queue的簡稱)。在這里,筆者先給出這兩個queue在三次握手時候的出現時機。如下圖所示:

 

當然了,除了上面提到的qlen和sk_ack_backlog這兩個計數器之外,還有一個qlen_young,其作用如下:

  1. qlen_young:  
  2. 記錄的是剛有SYN到達, 
  3. 沒有被SYN_ACK重傳定時器重傳過SYN_ACK 
  4. 同時也沒有完成過三次握手的sock數量 

如下圖所示:

 

至于SYN_ACK的重傳定時器在內核中的代碼為下面所示:

  1. static void tcp_synack_timer(struct sock *sk) 
  2.  inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL, 
  3.        TCP_TIMEOUT_INIT, TCP_RTO_MAX); 

這個定時器在半連接隊列不為空的情況下,以200ms(TCP_SYNQ_INTERVAL)為間隔運行一次。限于篇幅,筆者就在這里不多討論了。

為什么要存在半連接隊列

因為根據TCP協議的特點,會存在半連接這樣的網絡攻擊存在,即不停的發SYN包,而從不回應SYN_ACK。如果發一個SYN包就讓Kernel建立一個消耗極大的sock,那么很容易就內存耗盡。所以內核在三次握手成功之前,只分配一個占用內存極小的request_sock,以防止這種攻擊的現象,再配合syn_cookie機制,盡量抵御這種半連接攻擊的風險。

半連接hash表和全連接隊列的限制

由于全連接隊列里面保存的是占用內存很大的普通sock,所以Kernel給其加了一個最大長度的限制。這個限制為:

  1. 下面三者中的最小值 
  2. 1.listen系統調用中傳進去的backlog 
  3. 2./proc/sys/inet/ipv4/tcp_max_syn_backlog 
  4. 3./proc/sys/net/core/somaxconn  
  5. min(backlog,tcp_ma_syn_backlog,somaxcon) 

如果超過這個somaxconn會被內核丟棄,如下圖所示:

 

這種情況的連接丟棄會發生比較詭異的現象。在不設置tcp_abort_on_overflow的時候,client端無法感知,就會導致即在第一筆調用的時候才會知道對端連接丟棄了。

 

那么,怎么讓client端在這種情況下感知呢,我們可以設置一下tcp_abort_on_overflow

  1. echo '1' > tcp_abort_on_overflow 

設置后,如下圖所示:

 

當然了,最直接的還是調大backlog!

  1. listen(fd,2048) 
  2. echo '2048' > /proc/sys/inet/ipv4/tcp_max_syn_backlog 
  3. echo '2048' > /proc/sys/net/core/somaxconn 

backlog對半連接隊列的影響

這個backlog對半連接隊列也有影響,如下代碼所示:

  1. /* TW buckets are converted to open requests without 
  2.   * limitations, they conserve resources and peer is 
  3.   * evidently real one. 
  4.   */ 
  5.  // 在開啟SYN cookie的情況下,如果半連接隊列長度超過backlog,則發送cookie 
  6.  // 否則丟棄 
  7.  if (inet_csk_reqsk_queue_is_full(sk) && !isn) { 
  8.   want_cookie = tcp_syn_flood_action(sk, skb, "TCP"); 
  9.   if (!want_cookie) 
  10.    goto drop
  11.  } 
  12.  
  13.  /* Accept backlog is full. If we have already queued enough 
  14.   * of warm entries in syn queue, drop request. It is better than 
  15.   * clogging syn queue with openreqs with exponentially increasing 
  16.   * timeout. 
  17.   */ 
  18.  // 在全連接隊列滿的情況下,如果有young_ack,那么直接丟棄 
  19.  if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) { 
  20.   NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS); 
  21.   goto drop
  22.  } 

我們在dmesg里面經常看到的

  1. Possible SYN flooding on port 8080  

就是由于半連接隊列滿以后,Kernel發送cookie校驗而導致。

總結

TCP作為一個古老而又流行的協議,在演化了幾十年后,其設計變的相當復雜。從而在出問題的時候變的難于分析,這時候就要reading the fucking source code!而筆者也正是寫這篇博客而詳細閱讀源碼的時候偶然間靈光一閃,找到了最近一個詭異問題的根因。這個詭異問題的分析過程將會在近期寫出來分享給大家。

本文轉載自微信公眾號「解Bug之路」,可以通過以下二維碼關注。轉載本文請聯系解Bug之路公眾號。

 

責任編輯:武曉燕 來源: 解Bug之路
相關推薦

2021-06-10 09:52:33

LinuxTCPAccept

2020-10-10 07:00:16

LinuxSocketTCP

2021-07-15 14:27:47

LinuxSocketClose

2021-07-14 09:48:15

Linux源碼Epoll

2023-03-10 14:50:34

TCP 連接網絡通信

2015-04-23 18:46:38

TCPTCP協議

2019-09-16 09:29:01

TCP全連接隊列半連接隊列

2010-01-21 11:19:44

TCP Socketlinux

2024-12-04 11:53:05

2021-02-22 10:05:30

連接池網絡前端

2021-02-18 22:18:50

TCP 服務器源碼

2021-03-10 08:20:54

設計模式OkHttp

2017-04-05 20:00:32

ChromeObjectJS代碼

2015-05-28 10:34:16

TCPsocket

2019-11-17 22:11:11

TCPSYN隊列Accept隊列

2021-03-17 09:51:31

網絡編程TCP網絡協議

2018-02-02 15:48:47

ChromeDNS解析

2019-08-26 09:50:15

TCP連接Socket

2021-10-27 18:36:50

TCP 隊列全連接

2012-03-19 11:41:30

JavaSocket
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天堂色综合 | 中文字幕不卡视频在线观看 | 精品伊人| 久久青视频 | 亚洲一区二区不卡在线观看 | 嫩草视频在线 | av中文字幕在线 | 久草视频观看 | 中文字幕蜜臀av | 欧美影院 | 亚洲每日更新 | 在线亚洲欧美 | 日本在线观看视频 | 在线观看亚洲专区 | 一二三四在线视频观看社区 | 国产欧美精品一区二区三区 | 久草欧美视频 | 精品在线一区二区三区 | 欧美日韩综合精品 | 日日操夜夜操天天操 | 一区二区三区四区在线 | 欧美aⅴ | 中文字幕一区二区三区在线观看 | 久久国产免费看 | 久久久久1| 欧美一级毛片久久99精品蜜桃 | 国产 亚洲 网红 主播 | 一区视频 | 国产精品成人在线播放 | 一级特黄网站 | 日本人做爰大片免费观看一老师 | 免费国产视频 | 美女在线观看国产 | 精品国产欧美一区二区三区成人 | 国产日韩欧美一区 | 美女一级a毛片免费观看97 | 拍真实国产伦偷精品 | 日韩欧美国产成人一区二区 | 中文字幕第5页 | 国产1区2区3区 | 亚洲精品中文字幕在线 |